導讀:很多網友都懷疑手機在偷聽我們的日常對話,這甚至已經算不上新鮮事。有知乎網友提到,跟同事聊起蛋糕店後,貼吧app上赫然出現了85°C的加盟廣告!另有貼吧網友吐槽,跟身邊的人頻繁討論西餐之後(並且確定沒有搜尋任何跟西餐有關的內容),今日頭條推送了一堆關於西餐的內容。
一個叫tydoctor的美國小哥哥的經歷更驚悚,他說,他偶然發現了儲存在某款app檔案夾的一條音訊,“是上一次我用這個app遙控情趣用品的時候錄的。”你的手機或許在你毫不知情的情況下,記錄了一些不可描述的事情。
其實這些可能都是廣告商利用機器學習的演演算法,嘗試給你傳送針對性很強的精準廣告。但機器學習本身並非惡魔,很多機器學習的應用正在生活的方方面面給我們提供幫助、創造價值。
那麼,機器學習到底都能做什麼呢?答案是:它的應用領域可能超出你的想象!本文將劃分用途,並且描述當前是如何使用機器學習的。
01 軟體
在軟體中廣泛使用機器學習來提升使用者體驗。一些軟體自帶的演演算法庫能夠在使用者使用後學習使用者的行為,在使用軟體一段時間後,能預測使用者想要做什麼。
1. 垃圾郵件檢測
對於垃圾郵件,可以使用貝葉斯分類器更好地完成檢測工作。自從早期谷歌郵箱中使用垃圾郵件檢測以來,已經有多種學習方法用來檢測資訊是好是壞。
垃圾郵件檢測是一個機器學習演演算法的經典應用。隨著時間的發展,該演演算法被演繹得越來越好。
想一想我們正在使用的郵箱。當一條資訊被認為是垃圾資訊時,郵箱會向你求證該資訊是否是垃圾資訊。如果你確定它是垃圾資訊,則郵箱系統將學習這條資訊並積累經驗。從此,郵箱中的資訊將按照使用者的要求正確進行分類。
2. 聲音識別
在蘋果的iOS系統中,語音助手Siri是機器學習應用的另一個案例。使用者向Siri表達請求,它可以知道使用者想做什麼。最終的結果將是傳送一條推特或者一個文字資訊,或者設定一個約會日曆。如果Siri不知道你的請求,它將在谷歌中查詢答案。
Siri是一個深受使用者歡迎的服務,它使用了裝置和基於雲端計算的統計模型來分析使用者輸入的語音資訊,最後得出結果併在裝置中執行。
02 股票交易
有很多的平臺專門用於幫助使用者更好地進行股票交易。這些平臺需要做大量的分析和計算來進行推薦。從機器學習的角度來說,將為使用者做出決定是否在當前價格買入或者賣出股票。它將考慮歷史的開盤和收盤價格,以及股票的成交量。
透過低價、高價、日開盤價和日收盤價這4個資訊,機器學習演演算法可以學習股票的趨勢。將這運用到使用者投資的股票中,使用者可以擁有一個系統來幫助其決策是買進還是賣出。
比特幣是一個很好的交易演演算法例子,它結合市場願意支付的價格和擁有者願意賣出的價格實現交易。
媒體對各種高速演演算法交易很感興趣,每一秒的基於演演算法預測的股票交易能力都是一條很有價值的新聞。將大量資金投入到交易系統中,機器學習演演算法可以有條不紊地進行股票交易。如果演演算法不能及時發揮作用,毫秒的網路延遲將損失數以萬計的交易。
在交易中,大約有70%的交易是被機器操作的。當事情往好的方向發展時,這種操作是非常好的。但是當故障發生並且在幾分鐘以後才被註意到,那麼這段時間已經進行很多交易了。
2010年5月,當道瓊斯工業平均指數在600點時發生了快速的崩盤,這是交易中存在問題的一個很好的案例。
03 機器人學
透過機器學習,機器人可以獲得技能,學會適應工作環境。如透過自動化學習或者學習人工幹預,可以交換物件位置、把握物件,或者獲取運動技能。
隨著在機器人內部植入的感測器越來越多,其他演演算法將被應用到機器人外部,以進行更多分析。
04 醫學和醫療
機器學習被應用到醫療分析的競賽正在進行。許多初創公司正在研究使用機器學習與大資料結合的優勢為醫療保健專業人士提供更好的資料,使他們做出更好的決策。IBM的沃森是一款著名的超級計算機,它曾經在電視問答節目中戰勝了兩名人類對手,它可以被用來幫助醫生診斷。
使用沃森作為雲服務,醫生可以訪問學習數以百萬計的醫學研究頁面和幾十萬條醫學資料資訊。
許多消費者在使用智慧手機和相關的裝置,這些裝置能整理一系列健康資訊,如體重、心臟、脈搏、計步器、血壓,甚至血糖水平,它現在可以跟蹤和追蹤使用者定期的健康,檢視日期和時間。機器學習系統可以透過該裝置向用戶推薦更健康的選擇。
雖然這是很容易做的資料分析,但是保護使用者健康資料的隱私又是另一回事。顯然,一些使用者更關心的是他們的資料如何被使用,特別是在它被出售給第三方公司的情況下。在醫學醫療領域分析量的增加是全新的,但隱私的爭論將是演演算法最終被使用的決定因素。
05 廣告業
只要生產出產品,就會提供服務,公司一直在試圖引導人們購買他們的產品。自1995年以來,網際網路給市場創造了直接向我們釋出廣告的機會,而無須電視或大型印刷公司的參與。還記得我們電腦中cookies檔案有跟蹤使用者的潛能嗎?當時,從瀏覽器中刪除cookies檔案並控制誰監督使用者習慣的競賽是一件大新聞。
日誌檔案分析是另外一種廣告商用來檢視使用者興趣點的方法。他們能夠將結果聚類,並根據誰可能對特定型別的產品感興趣來劃分特定的使用者群組。結合手機位置資訊就能給你傳送針對性很強的廣告。
曾幾何時,這種型別的廣告被認為是一個巨大的隱私侵犯,但現在我們已經逐步接受這種想法,很多人甚至樂於分享自己的當前所在地點。如果你僅僅認為只有你的朋友會看到這個資訊,請三思!事實上,大量的企業正在從你的活動中獲取有價值的資訊。透過一些學習和分析,廣告商可以更好地計算出某天你會出現在哪裡,並嘗試左右你的行為。
06 零售和電子商務
機器學習演演算法大量運用於零售業,包括電子商務和基礎性零售業(bricks-and-mortar retail)。在高層面上,明顯的應用案例是會員卡。發行會員卡的零售商們經常儘力理解使用者反饋回來的資料。因為我曾就職於一家分析這些資料的公司,所以深知超市深入理解會員卡資訊的難度。
若提及客戶會員專案,英國的超市巨頭Tesco是領跑者。消費者大量使用Tesco會員卡,這讓Tesco得到了大量消費者的購買決策。他們從銷售點(POS)收集資料,然後反饋到資料庫中。在早期的會員卡時代,由於資料龐大,因此沒辦法進行快速的資料挖掘。這些年,隨著資料處理方法的進步,Tesco和銷售公司Dunn Humby已經研發出一個好策略來理解使用者行為和購物習慣,以此鼓勵他們嘗試選擇與平時類似的產品。
在美國,類似的案例是Target,它管理著一個相似的專案,跟蹤客戶參與的品牌,包括郵件、網頁訪問,甚至在店內參觀。從資料庫中,Target能夠調整針對正確的客戶獲取合適的交流方法,從而獲得品牌反饋。Target瞭解到,並不是每一個客戶都想收到電子郵件或SMS訊息,有些人更喜歡透過郵政服務接收郵件。
機器學習在零售業的用途顯而易見:一方面,購物籃挖掘和化分使用者是給顧客傳達合適資訊的關鍵行程;另一方面,它可能會因為太準確而導致麻煩。在新聞界作為大資料大型隱私危機案例而廣泛取用的Target“嬰兒俱樂部”故事,展示了機器學習可以很容易地確定我們是習慣的“奴隸”,它們將註意到這些習慣的改變。
Target的隱私困擾:Target的統計學家Andrew Pole,透過分析購物籃的資料來判定當前的顧客為孕婦。分析中許多選定的產品出現了,然後Target制定了一個懷孕預測評分。根據最新計算的分數,把優惠券送給那些預測出是孕婦的客戶。這項工作進展順利,直到一個十幾歲女孩的父親聯絡了當地的商店,抱怨他們傳送給他女兒相關優惠券。結果顯示,Target在女孩告訴父親懷孕的事實之前已經預測出這個女孩懷孕了。
對於所有較好用途的機器學習演演算法來說,也有著許多神奇的事。例如,你可能聽說過“啤酒與尿布”的故事與沃爾瑪等大型零售商的聯絡。這個想法是:在週五,啤酒和尿布的銷售都在增加,這表明母親出去了,而父親為自己囤積啤酒,併為照看的小傢伙囤積尿布。這明顯是一個神奇的事,但仍然沒有阻止營銷公司從推銷他們的故事(並相信這是真的)變成想從他們資料中學習的組織。
另一個神奇的事是,重金屬樂隊Iron Maiden透過處理位元流資料來查詢哪些國家在非法下載他們的歌曲,然後前往那些國家開演唱會。這個故事讓營銷人員和媒體對大資料和機器學習非常感興趣,但可悲的是這是不真實的。並不是說這些事情不可能發生,只是還沒有發生。
07 遊戲分析
我們已經驗證了跳棋是一種很好的機器學習實驗候選者。你還記得那些有一個塑膠手柄的舊的電腦象棋遊戲嗎?玩家移動一步,然後電腦移動一步。這就是機器學習的規劃演演算法。從幾十年前發展到今天(對我而言,電腦象棋恍如昨日),遊戲主機市場正不斷地產生你玩自己最喜歡的遊戲時的分析資料。
微軟已經花了很多時間研究Halo 3的資料,來看看玩家在確定層次上如何表現,同時也會指出玩傢什麼時候作弊,並依據對consoles反饋的資料分析來進行修複。
微軟還致力於被納入駕駛遊戲Forza Motorsport的Drivatar。當你第一次玩遊戲時,它不知道你的駕駛風格。經過一段時間的練習,系統學習你的駕駛風格、一致性、在彎道上的出口速度、在軌道上的定位。每駕駛3圈系統就進行取樣,保證有足夠的時間來瞭解你的駕駛行為。隨著時間的推移,系統繼續學習你的駕駛樣式。當學習完你的駕駛風格之後,遊戲開闢了新的平臺,讓你與其他車手,甚至與你的朋友競爭。
如果你有孩子,你應該會看到孩子對nintendog狗(或者貓)的喜歡。這是一個遊戲,遊戲中,人被安排任務來照顧螢幕上的寵物。演演算法可以計算出什麼時候需要帶寵物玩,怎麼樣和主人交流,寵物到底有多饑餓。
這仍然是早期的遊戲公司將機器學習運用到遊戲基礎建設中來,讓遊戲變得更好玩。隨著越來越多的遊戲出現在如iOS和Android平臺之類的小裝置中,真正的學習在於如何讓玩家回歸,並且玩得越來越多。分析可以用於表現有關遊戲的“滯後性”,即玩家會傳回再玩一遍嗎?或他們因為其他事情放棄過遊戲一段時間嗎?最終,機器學習的層次和遊戲效能之間會有一個權衡,尤其在更小的裝置中。更高水平的機器學習演演算法需要佔用裝置內更多的記憶體。有時你必須在遊戲學習中考慮這些限制性因素。
08 物聯網
能收集所有資料的連線裝置安裝在隨處可見的地方。裝置之間的通訊並不新鮮,但直到最近才真正衝擊公眾的思想。隨著生產和分銷成本的降低,家庭中使用的裝置和工廠一樣多。
用途包括家庭自動化、購物和測量能源消耗的智慧電錶。這些東西還處於起步階段,這些裝置安全方面的問題仍然受到很多關註。類似地,移動裝置定位就是一個關註點,企業可以透過其獨特的識別卡片來定位裝置,最終將它們與使用者進行關聯。
另外,資料是如此的豐富,足夠把機器學習安置在資料的中心並學習裝置的輸出。這可能和監控一個能感知室外溫度房子的室溫一樣簡單,比如,它是太熱還是太冷?
這是物聯網早期的事情,但發生了很多導致一些有趣的結果的基礎性工作。隨著Arduino和Raspberry Pi電腦越來越受歡迎,從開始測量運動、溫度和聲音,到後來的為資料分析提取資料,不管資料是收集後的還是實時獲取的,它們所需的代價相對低廉。
作者:詹森·貝爾(Jason Bell)
譯者:鄒偉、王燕妮
本文摘編自《機器學習:實用技術指南》,經出版方授權釋出。
延伸閱讀《機器學習:實用技術指南》
轉載請聯絡微信:togo-maruko
點選文末右下角“寫留言”發表你的觀點
推薦語:IT不枯燥,用故事給技術加點料,全網閱讀量近1000萬的技術故事。
推薦閱讀
Bruce Eckel最新演講:調bug就是浪費生命!放棄吧!(附完整PPT)
最全Python資料工具箱:標準庫、第三方庫和外部工具都在這裡了
Q: 機器學習應用,你還想到哪些案例?
歡迎留言與大家分享
覺得不錯,請把這篇文章分享給你的朋友
轉載 / 投稿請聯絡:baiyu@hzbook.com
更多精彩,請在後臺點選“歷史文章”檢視
點選閱讀原文,瞭解更多