本文透過8個案例介紹機器學習的應用場景。
作者:傑瑞米·瓦特,雷薩·博哈尼,阿格洛斯·K.卡薩格羅斯
如需轉載請聯絡大資料(ID:hzdashuju)
01 回歸
假設我們想預測一家即將上市的公司的股價(即當一家公司首次向公眾發行股票時)。根據《怎樣教一臺計算機區分貓和狗?一文零基礎入坑機器學習》一文中所討論的流程,首先,要收集資料的訓練集,訓練集應包含一些已知股票價格的公司(最好是活躍在相同領域的公司)。然後,需要設計與當前任務相關的特徵。
公司的收入就是這樣一個潛在特徵,因為我們預計公司的收入越高,股票的價格也應該越高。(其他的潛在特徵可能包括總資產、總股本、員工數和年活躍度等。)現在,為了將股票價格和收入聯絡起來,我們用訓練資料來訓練一個線性模型或回歸線。
圖1-7上圖表示由10家公司的股價和收入資訊組成的微型訓練集以及一個擬合該資料集的線性模型。一旦模型訓練完成,新公司的股價可以根據其收入來預測,如圖1-7下圖所示。
▲圖1-7 (左上圖)由10家公司的股價和收入組成的微型訓練資料集;(右上圖)一個擬合該資料的線性模型;如左下圖和右下圖所示,這條趨勢線可以建模這些點的整體軌跡,並且可以在將來用於預測
最後,將預測的價格與測試集中真實的價格進行比較,測試回歸模型的效能,並根據需要進行調整(如選擇不同的特徵)。用模型擬合一組訓練資料以便對一個連續變數(如股票價格)進行預測,這類任務被稱為回歸。我們現在來討論有關回歸的更多例子。
例1 美國學生貸款債務的增長
圖1-8顯示了從2006年到2014年美國公民持有的學生貸款債務總額,每個季度評估一次。學生借錢是為了支付大學學費和食宿費等。
▲圖1-8 從2006年到2014年美國學生貸款債務總額,每個季度評估一次。擬合資料趨勢線的斜率表示了學生債務的迅速增長,證實了學生債務正在(危險地)急劇增長的說法
從圖中可以看出,在這8年間,學生債務總額增長了兩倍,到2014年年底總額已經超過了1萬億美元。擬合該資料集的回歸線很好地表示了資料集,其陡峭的正斜率強調了學生債務正在急劇上升的危險。此外,如果這種趨勢繼續下去,那麼我們可以利用回歸線預測,到2026年年底,學生債務總額將達到2萬億美元。
例2 收入預測
1983年,奧斯卡最佳編劇William Goldman在他的書《Adventures in the Screen Trade》中指出“無人知曉任何事情”,意思是說,他認為在當時無法預測好萊塢電影能否成功。然而,在後網際網路時代的今天,準確估計即將上映電影的票房收入正在成為可能。
特別是,預告片的網路搜尋量以及Twitter、Facebook等社交網路上關於電影的討論數量,已被證明提前一個月就能可靠地預測出電影的首映週末票房收入。一些產品或者服務的銷量預測,包括票房預測,一般用回歸來實現。其中,輸入特徵可以是某天內的預告片搜尋量,輸出是相應時段內的收入。基於這些資料學習的回歸模型可用於估計新電影的預期收入。
例3 基因與數量性狀的關聯
全基因組關聯(GWA)研究(如圖1-9所示)旨在理解數以萬計的基因標記之間的關係,這些基因標記來自於眾多領域的人類基因組,包含高血壓/膽固醇、心臟病、糖尿病、各種癌症以及其他疾病。
這些研究是希望有朝一日能產生基因靶向療法,像治療由單一基因引起的疾病(如囊性纖維化)那樣,幫助人們治癒由多種因素導致的疾病。在GWA研究中,回歸作為一種常用的工具,用來理解基因標記(特徵)與膽固醇或葡萄糖水平(連續的輸出變數)等數量性狀之間的複雜關係。
▲圖1-9 一個使用回歸的GWA研究的概念圖,其中一個數量性狀與特定的基因組位置有關
02 分類
分類的機器學習任務在原理上與回歸類似。二者的主要區別是,分類的主要任務是預測離散的值或者類別,而不是預測連續值輸出(如股票價格和血壓等)。分類問題可以以不同的形式出現。例如,標的識別就是一個非常流行的分類問題,它將一組影象中的標的區分開來(如自動分類郵件上的手寫數字,或者半自動駕駛和自動駕駛過程中的路牌區分)。
在《怎樣教一臺計算機區分貓和狗?一文零基礎入坑機器學習》一文中討論的區分貓和狗的微型問題也是這樣的分類問題。其他常見的分類問題還包括語音識別(語音識別系統識別不同的口語單詞),確定Twitter等社交網路上對某個產品或服務的普遍感受,以及在一個有限的可能集合中確定一個人正在做的手勢(如控制一臺沒有滑鼠的計算機)。
從幾何學上講,看待分類任務的一種常見方法是找到一個分離線(或更高維度的超平面),將這兩類資料盡可能地從訓練集中分離出來。
註:有些分類問題,如手寫數字識別,會涉及兩個以上的類別,需要比一條直線更好的模型來分隔這些類。
這正是我們在描述《怎樣教一臺計算機區分貓和狗?一文零基礎入坑機器學習》的微型示例時所採用的分類觀點,採用一條直線來分隔(從影象中提取的特徵)貓和狗的圖片。對於測試集中的新資料,只需要簡單地確定它們位於直線或者超平面的哪一側就可以對其進行自動分類。圖1-10展示了用於在二維微型資料上進行分類的線性模型或分類器的概念。
▲圖1-10 (左上圖)包含兩個不同的類的微型二維訓練集;(右上圖)一個已經訓練好的用來區分這兩個類的線性模型;(左下圖)一個未知類的測試點;(右下圖)測試點被分到相應的類中,因為這個點位於已訓練好的線性分類器的右側
例4 標的檢測
標的檢測是一種常見的分類問題,它是在一組影象或影片中自動識別特定物件的任務。常見的標的檢測應用包括用於組織目的和照相機聚焦的人臉影象檢測,用於自動駕駛車輛的行人檢測,以及用於電子產品質量控制自動化的殘次品檢測。除了我們要重點討論的人臉檢測外,相同的機器學習框架可用來解決許多類似的檢測問題。
註:儘管行人檢測是一個經過深入研究的分類問題,但一個標準的半自動或自動汽車會使用多個探測器來發現汽車周圍的其他重要物體,如道路標識、交通訊號和其他汽車。
在包含人臉和其他影象的訓練集上訓練好線性分類器後,對於新的測試影象,可透過在整個影象上滑動一個(通常是)正方形的視窗來尋找人臉。在滑動視窗的每個位置,對內部的影象內容進行測試,檢視它位於分類器的哪一側(如圖1-11所示)。如果影象內容(的特徵表示)位於學習分類器“人臉這一側”,那麼它就被分類為人臉。
註:在實際應用中,為了確保在測試影象中檢測到與照相機具有不同距離的所有人臉,通常會採用不同大小的視窗來掃描影象。如果多個檢測都是圍繞單個人臉進行的,那麼它們就會被組合成一個高亮顯示的視窗,將檢測到的人臉包圍起來。
▲圖1-11 為了確定測試圖片中是否存在人臉(該示例圖片中,飛機的發明者萊特兄弟併排坐在他們於1908年發明的第一個機動飛行器上),一個小視窗掃描了圖片的全部區域。在每個位置上,透過檢查特徵表示位於分類器的哪一側來確定小框中的內容是否為人臉。作為示例,右圖中的直線上方和下方區域分別表示學習分類器的人臉一側和非人臉一側
例5 情感分析
社交媒體的興起極大地放大了消費者的聲音,為他們提供了一系列良好的渠道來評論、討論、評估產品和服務。這促使很多公司尋找資料密集型方法來評估消費者對新釋出的產品、廣告活動等的感受。
透過使用基於文字的內容(如產品評價、推文和評論)來確定大量客戶群的總體感受,通常稱為情感分析。分類模型通常用於情感分析,學習辨別消費者的正面或負面情緒資料。
例6 作為醫學診斷工具的分類
各種各樣的癌症仍然是診斷和治療中最具挑戰性的疾病。
今天,人們相信許多癌症的罪魁禍首在於突變基因的積累,或者換句話說,是個人DNA序列的錯誤複製。利用DNA微陣列技術,遺傳學家現在可以同時從健康和腫瘤組織中查詢成千上萬個基因的表達水平。這些資料可以用於自動識別癌症遺傳易感性患者的分類框架。該問題和例3所討論的基因與數量生物性狀的關聯性有關。
在醫學界,利用人腦功能性核磁共振成像(fMRI),分類也越來越多地用於診斷神經系統疾病,如自閉症和註意缺陷多動障礙(ADHD)等。這些fMRI腦部掃描可以在病人執行簡單的認知活動(如追蹤一個小的視覺物件)時,隨著時間的推移,捕獲大腦不同區域的神經活動樣式。
這裡的最終標的是訓練一種診斷分類工具,僅基於fMRI掃描就能區分具有特定神經系統疾病的患者和沒有此疾病的患者。
03 特徵設計
正如我們在前面章節中所描述的,特徵是定義給定資料集的特性,從而允許最優的學習。事實上,精心設計的特徵對回歸和分類方案的效能都是至關重要的。
然而,從廣義上說,我們所能設計特徵的好壞,從根本上取決於我們對所研究現象的知識水平。我們越瞭解(在智力和直覺上)手頭資料的生成過程,設計的特徵就越好,或者在理想情況下,教會計算機自己完成這項設計工作。在極端情況下,我們幾乎完全理解資料的生成過程,這些知識來自於大量直觀的、實驗性的以及數學上的思考,我們設計的特徵也會有近乎完美的效能。
然而,通常情況下,我們對正在分析的資料只瞭解一點,甚至一點也不瞭解。宇宙巨大而複雜,關於它如何執行的確切理解,我們知道的還只是鳳毛麟角。
下麵我們舉一些例子,說明我們對現象的理解程度(從對現象的十分瞭解到只瞭解一些基本事實)是如何指導特徵設計的。本節的一個主旨是詳細闡述機器學習技術處理這個問題的現狀。
機器學習的一個最終標的是開發有效的工具來處理任意型別的資料(發現其中的樣式)。該標的現在還遠未得到充分實現,從根本上來說,它要解決的問題與尋找好的特徵有關。
例7 伽利略和勻加速
1638年,伽利略因被天主教會驅逐而臭名昭著。他被驅逐的原因是,在他最後出版的書《Dialogues Concerning Two New Sciences》中,他大膽宣稱地球是繞太陽轉的,而不是太陽繞地球轉(當時的主流觀點)。在這本書中,他以亞裡士多德傳統的三人對話形式,為勻加速物理運動的概念描述了他的實驗和哲學證據。
具體而言,伽利略(和其他人)直覺上認為,由於(我們現在所知道的)重力,物體的加速度在時間上是一致的。換言之,物體下落的距離與它運動時間的平方成正比(即線性相關)。該關係是伽利略用以下巧妙而簡單的實驗經驗性地得到的。
如圖1-12所示,反覆讓一個金屬球從一個5.5米長的帶槽傾斜木頭上滾下,伽利略記錄小球到達木頭斜面的1/4、1/2、2/3、3/4以及斜面底端的時間。
註:這裡使用斜面而不是將球垂直地扔下來的原因是,在伽利略所處的年代,計時器不夠精確,不能精確測量球的下落時間。
▲圖1-12伽利略斜面實驗裝置,用於探索物體因重力下落的距離與時間的關係。為了完成這個實驗,他反覆將球滾下斜坡,並記錄小球到達斜坡1/4、1/2、2/3、3/4以及斜坡底端的時間
透過現代實驗重現(30次試驗的平均值)得到了一些資料,結果如圖1-13的6個資料點所示。但是,這裡我們沒有顯示原始的輸入(時間)和輸出(相應的經過斜面的比例)資料,而是顯示輸出和對應的特徵,即時間的平方。在伽利略的原始實驗中,時間是用水的毫升數估計的。
註:按時間順序排列的表(像我們今天這樣記錄小時、分鐘和秒的個人計時器)在伽利略年代並不存在。相反,時間是透過計算每一個球滾下斜坡時從壺嘴滴落到小杯裡的水量來計算的。這種聰明的計時裝置被稱為“水鐘”。
透過把時間的平方當成特徵,資料集變得非常線性相關,可以近乎完美地用線性回歸來擬合。
▲圖1-13 伽利略的實驗資料由6個點組成,它們的輸入是時間,輸出是經過斜面的比例。圖中顯示的是帶有時間平方特徵的輸出及其線性擬合。在機器學習中,我們將變數“時間的平方”稱作原始輸入變數“時間”的一個特徵
例8 視覺標的檢測的特徵設計
一個更為現代的特徵設計示例是視覺標的檢測任務(在例4中引入)。在該任務中,我們對資料生成的底層過程只有部分瞭解。與之前討論的伽利略和勻加速例子不同,我們在實驗和哲學意義上對視覺認知的基本過程知之甚少。然而,即使在一知半解的情況下,也可以為標的檢測設計出有用的特徵。
在視覺分類任務的特徵設計過程中,最重要且最常見的一個事實是,一幅自然影象中的辨別資訊很大程度上被包含在影象內相對較少的邊緣中。自然影象中的人可能會置身於森林或者戶外場景、城市風光、其他人群、動物以及建築物等中。
圖1-14的例子中包含一幅自然影象以及一幅由其最突出邊緣組成的影象。自然影象中的大部分畫素不屬於任何邊緣,但是在只有邊緣的情況下,我們仍然能辨別出影象中包含什麼。
▲圖1-14(左圖)一張自然影象,圖片中包含電視節目《South Park》的兩個創始人/作家(這張圖片是在Jason Marck的許可下複製的)。(右圖)左圖的邊緣檢測版本,突出的畫素表示大的邊緣內容,只用原始影象中的一部分資訊,仍然可以很好地描述影象的場景(從這個意義上說,我們仍然能識別出圖中有兩個人)
透過在青蛙、貓和靈長類動物身上進行的大量視覺研究(對研究物件進行視覺刺激,同時記錄處理視覺資訊的大腦區域的電脈衝),神經系統科學家已經確定所涉及的單個神經元大致透過識別邊緣來發揮作用。
因此,每個神經元充當一個小的“邊緣檢測器”,定點陣圖片中特定方向和寬度的邊緣,如圖1-15所示。一般認為,透過組合和處理這些邊緣檢測影象,人類和其他哺乳動物就能“看到”。
▲圖1-15視覺資訊是在大腦的一個區域中進行處理的,每個神經元在觀察到的場景中檢測特定方向和寬度的邊緣。我們(和哺乳動物)所看到的被認為是這些邊緣檢測影象經過處理的插值
關於作者:傑瑞米·瓦特(Jeremy Watt),獲得美國西北大學電腦科學與電氣工程專業博士學位,研究興趣是機器學習、計算機視覺和數值最佳化。
雷薩·博哈尼(Reza Borhani),獲得美國西北大學電腦科學與電氣工程專業博士學位,研究興趣是面向機器學習和計算機視覺問題的演演算法設計與分析。
阿格洛斯·K.卡薩格羅斯(Aggelos K. Katsaggelos),美國西北大學電腦科學與電氣工程系教授,Joseph Cummings名譽教授,影象與影片處理實驗室的負責人。
本文摘編自《機器學習精講:基礎、演演算法及應用》,經出版方授權釋出。
延伸閱讀《機器學習精講:基礎、演演算法及應用》
點選上圖瞭解及購買
轉載請聯絡微信:togo-maruko
推薦語:本書為瞭解機器學習提供了一種獨特的途徑。書中包含了新穎、直觀而又嚴謹的基本概念描述,它們是研究課題、製造產品、修補漏洞以及實踐不可或缺的部分。
朋友會在“發現-看一看”看到你“在看”的內容