原文標題:Key Highlights in Data Science / Deep Learning / Machine Learning 2017 and What can we Expect in 2018?
作者:FAIZAN SHAIKH 翻譯:楊金鴻 校對:丁楠雅
本文長度為6500字,建議閱讀14分鐘
本文列舉了一些在2017年發生在資料科學行業的開創性事件。以及這些事件對資料科學專業人士的影響。還展現了在不遠的將來可以看到這些技術的發展路徑。
簡介
對於資料科學專業人士來說,2017年是激動人心的一年。這一點在新技術的應用方面尤其顯而易見,比如人臉識別技術已經徹底改變了我們在行動電話中獲取資訊的方式;自動駕駛汽車曾經是一個神話,但現在已經成為現實。如今,世界各地的政府都在發展自動駕駛技術。
資料科學是一個新的領域,與以往其他新興技術相比,突破性的研究正在以更快的速度進行著。從研究到實施的時間已經大大減少了。這是由於大量的免費資源提供給每個人使用,使得普通人能夠自主開展研究。例如,Andrew Ng曾經說過GitHub(一個軟體開發協作平臺)正在為研究想法的實現鋪平道路。
個性化和自動化是當今時代的話題,越來越多的行業如金融服務,醫療保健,製藥和汽車行業正在適應由機器學習/深度學習技術帶來的發展。本文特別聚焦了2017年資料科學的決定性瞬間。我們按如下準則整理了一份串列:
-
作為一名資料科學專業人士,這些事件對你有影響嗎?
-
這些事件會影響到你的學習或者日常工作嗎?
-
它是創新創業公司、產品釋出還是最新進展?
-
它是否需要產業合作,會影響資料科學的未來嗎?
此外,我們也分享了我們對2018年的預測,我們相信這將是一件值得期待的事情。
2017年的有趣片段
PowerBlox開發了一種可擴充套件的能源裝置,可以從各種輸入中儲存和分配電能(https://www.treehugger.com/renewable-energy/new-energy-storage-product-uses-swarm-intelligence-create-autonomous-micro-grids.html)。
標簽——創業公司,可再生能源
一家年輕的公司PowerBlox正在使用演演算法提供電力網“群智慧”。“Power-Blox 給電力網提供了自動適應電能負載的可伸縮電源”。這是一項非常重要的技術,因為我們使用的風能、太陽能和潮汐能源,每分鐘是變化的,這項技術將使可再生能源變得更可用。
Neuralink:一種高頻寬的安全的人機互動技術
標簽——創業,創新
2017年,埃隆馬斯克宣佈成立了一家名為“Neuralink”的公司,該公司的標的是建立高頻寬的安全的人機互動技術。埃隆想將矩陣技術帶到現實生活中,學習新技能。例如駕駛直升機只需將電線插入新大腦皮質,這一切聽起來像是誇張的科幻,但在埃隆心中一直認為它是真實的,比如特斯拉和SpaceX。
如果這一切都成真了,人類很快就會開發出研究和繪製大腦的技術。這對大幅改善醫療保健以及提升人類能力有著深遠的影響。埃隆是認真的。該公司最近獲得了2700萬美元的融資,並計劃透過其股票另外募集1億美元資金。對我們普通人來說,可以開啟標題連結去瞭解它是如何開始的,如果它成為現實將會多麼偉大,足以改變人類的未來。
肯德基中國使用人臉識別支付
標簽——創新,零售行業,計算機視覺
支付寶和肯德基中國允許使用者透過手機人臉識別技術支付費用。這是世界上第一家使用這項新技術的零售商。
Deeplearn.js釋出:在瀏覽器中使用機器學習
標簽——產品釋出,機器學習,開源軟體
Deeplearn.js是一個開源加速WebGL的JavaScript庫,可在瀏覽器中使用機器學習。
軟體工程師Nikhil Thorat和Daniel Smilkov指出:“將機器學習引入瀏覽器的原因有很多。客戶端ML庫可以作為互動解釋性平臺,用於快速原型化和視覺化,甚至用於離線計算。如果沒有其他因素,瀏覽器將會是世界上最流行的程式設計平臺之一”。
CatBoost的釋出:自動處理分類資料的機器學習庫
標簽——機器學習,開源軟體
在用sklearn庫處理不同型別變數時,您可能已經遇到不少報錯,比如“ValueError:不能將string轉換為float”。使用sklearn前需要事先轉換這些格式,比如進行“標簽編碼”、“熱編碼”等預處理。“CatBoost”是一個最近開源的庫,由Yandex開發和貢獻,看可以實現自動轉換。
去年釋出了許多這樣的開源工具/庫。這篇文章闡述了一些最流行的開源工具/庫。
IBM Watson協助申報納稅系統
標簽——公司協作,財務
稅務籌劃公司H&R; Block與IBM Watson合作,開發一個內部系統以幫助其員工申報客戶稅收。美國的稅法長達74000頁,普通人很難理解全部知識。IBM Watson的這個系統將為稅務專業人員提供指導和建議,來幫助稅務人員熟悉流程。在今年稅收結束後,Watson將會擁有大量稅收資料,可以進行資料分析。
Shelf Engine:一家用人工智慧減少食物浪費的初創公司
標簽——創業,食品工業
Shelf Engine是一家初創公司,設計了一個可持續發展的經營樣式來幫助雜貨店的品類經理搭配成百上千種產品訂單。這家公司在案例研究中指出許多經理經常根據他們當前的浪費數字來制定訂單——這是一種有缺陷的方法。因為“這個決定不是建立在浪費和交付的基礎上”。Shelf Engine使用訂單預測工具和機率模型,分析歷史訂單和銷售資料、毛利潤、貨架壽命資訊。客戶使用系統越多,其建議就越準確。這家初創公司得到了初始資本的支援(Reddit聯合創始人Alexis Ohanian是一個普通合夥人)包括,創始人的合作伙伴、Liquid 2 Ventures(Joe Montana是一個普通合夥人)和其他人。
人體實驗室——一家由亞馬遜收購的初創公司,從影象中獲取人體的3D模型
標簽——公司收購,時尚零售
人體實驗室,一家計算機視覺創業公司已經開發出一種應用程式,可以透過任何輸入,不論是2D照片、3D掃描還是實際的身體測量,都能預測出完整的3D視覺體型。這種外接式技術的影響是巨大的,不僅涵蓋了時尚和服裝領域的商業機遇,還包括健身、遊戲、健康和製造業。這項技術將解決客戶的試穿問題,尤其是在電子商務中由於尺寸問題而導致的巨額退貨請求。人體實驗室是由Michael Black、William J. O’Farrell、Eric Rachlin和Alex Weiss共同創立,他們在布朗大學和馬克斯普朗克智慧系統研究所進行研究。
資料科學競賽平臺“Kaggle”加入谷歌雲
標簽——公司收購
2017年3月谷歌收購了資料科學家的競賽平臺Kaggle。這個平臺以舉辦資料科學和機器學習競賽而聞名。據稱,谷歌收購Kaggle旨在提高人工智慧和機器學習,並利用Kaggle社群的60萬名資料科學家資源。這次收購後,Kaggle將繼續提供服務,但是Kaggle平臺的功能比以前更加強大了。例如,線上編碼環境的“核心”比以前更加平滑、提供了更多的功能、更長的執行時間。
膠囊網路——一種改進的深度學習體系結構演演算法
標簽——研究,深度學習
Geoffrey Hinton是深度學習先驅之一,他解釋了膠囊網路如何改善傳統的摺積神經網路體系結構。如果將此技術應用到應用程式中,可以輕鬆地擊敗之前的基準測試技術。
實際上,這項技術以前就被髮現了——但是現在已經以一種穩定的方式實現,並且被認為是更好的展現。
加拿大與人工智慧研究所押註人工智慧
標簽——產業合作
在Geoffery Hinton的領導下,加拿大政府與谷歌、Facebook等大公司在向量研究所投資了150億美元,要求每年在人工智慧領域培養1000名畢業生。向量研究所透過促進和維持加拿大在深度學習和機器學習等方面的卓越成就,推動加拿大成為全球人工智慧浪潮的前沿陣地。
百度訓練了一名人工智慧代理導航世界,就像父母教孩子一樣
標簽——創新、機器人技術
百度訓練了一名人工智慧代理使用自然語言導航二維空間,這是一種父母與嬰兒之間使用的基本反饋機制。這種構建人工智慧的過程可以用人類的方式進行教學。百度的下一個標的是教一個物理機器人在三維空間中進行導航,這個標的更貼近生活。這項基於強化機器學習的應用將對機器人工業產生巨大的影響。
機器學習建立地球生命地圖集
標簽——創業公司,食品管理
位於墨西哥的一家初創公司笛卡爾實驗室利用衛星影象和人工智慧來預測食品供應和危機級別。在食品短缺出現之前的幾個月做出預測。讓人們有足夠多的時間來進行有序的人道主義響應,或者最佳化糧食供應網。笛卡爾實驗室收集了非常深入的資訊,比如能夠區分單個農作物場、透過分析太陽光反射情況來確定特定區域的農作物,並使用先進的機器學習演演算法來處理這些影象和資料。一旦建立農作物的模型,機器學習程式就會監控該區域的生產情況。
迪斯尼瞭解觀眾的個性,更好地為他們提供服務
標簽——創新,行為分析
迪斯尼研究公司Maarten Bos介紹了旗下的行為科學家團隊如何進行一系列研究,使用影象來瞭解標的市場,並討論了這些資訊在迪斯尼和其他地方的可能應用。如果明智而勤勉地進行下去,這將徹底改變我們做品牌營銷的方式。
“Entrupy”使用深度學習來識別產品的真實性
標簽——創業公司,計算機視覺,深度學習
“Entrupy”是一家使用計算機視覺演演算法來檢測假冒產品的初創公司。他們發明瞭一種行動式掃描裝置,可以立即檢測出仿名牌包,並透過顯微照片記錄材料的細節、加工、工藝、序列號和磨損。然後,它採用深度學習技術,將影象與包含頂級奢侈品牌的龐大資料庫進行對比,如果該包被認為是真實的,使用者就會立即獲得一份真實性證書。
使用深度學習檢測心臟疾病
標簽——創業公司,醫療保健
與加州大學舊金山分校合作的心電圖,改良了一款檢測心房纖顫的Apple watch。其準確度比之前驗證過的方法要高得多。他們利用深度學習技術取得了這一成就。一旦檢測到疾病,該裝置就會給你傳送一條通知:“我們註意到你的心跳出現了異常,想和心臟病專家聊聊嗎?”這可能會減少疾病發作的時間,以及從檢測到治療的時間。
Facebook減少視覺識別模型的訓練時間
標簽——創新,深度學習
花一分鐘的時間來訓練一個深度學習樣式是不可能的事情,但在當今快節奏的研究世界裡,這一分鐘是值得的。Facebook今天早上發表了一篇論文,詳細介紹了該問題的解決方法。該公司表示,它已經成功地將ResNet-50深度學習樣式的訓練時間從29個小時縮短到了1個小時。
IBM Watson自動形成明顯的溫布林頓繞線輪
標簽——創新、新聞
在過去,建立顯示包和標註照片任務是人類的工作。但今年,這一工作被沃森人工智取代了。
沃森人工智可以在沒有任何人工輸入的情況下生成高亮顯示包。它可以觀看影片並識別最匹配的相關部分。可以識別玩家握手、手勢慶祝、觀眾聲音之類的簡單的東西。
DeepMind發明出可以想象和提前計劃的人工代理
標簽——創新,強化學習
DeepMind研究人員發明瞭一個所謂的“想象增強劑”,即I2As,它有一個神經網路,用於從環境中提取資訊,這些資訊在以後的決策中起到關鍵作用。這個代理可以建立、評估和跟蹤計劃。為了構建和評估未來的計劃,在決定執行哪個計劃之前,I2As要“預測”行動以及結果。你也可以選擇想要使用的方式,包括分別嘗試不同可能的動作或者按順序將動作連線在一起。
Replika,一個聊天機器人
標簽——創新,人工智慧
Replika是一個影子機器人,它可以追蹤你電腦上的內容,模仿你的風格、態度和傾向,然後像你一樣傳送資訊。舉個例子,這位發明家用它來模仿一個死去的朋友的存在。
使用Twitter預測犯罪
標簽——預測性分析,Twitter挖掘
弗吉尼亞大學助理教授Matthew Gerber正在利用Twitter資料預測犯罪,使警方及時關註地理犯罪熱點。他透過使用一些舊的預測模型和新的tweet,預測了25種犯罪型別中的19種。這是在社交媒體上發現人們的情緒並採取緊急預防措施減少犯罪的又一種方法。
HireVue使用人工智慧來分析影片面試求職者的表達能力、語氣和麵部動作
標簽——人力資源,計算機視覺,自然語言處理
HireVue正在利用人工智慧在人力資源領域進行招聘和決策。這家公司透過對面試影片進行分析,評估應聘者的面部表情、肢體語言、語調等,預測哪些應聘者將成為最優秀員工。這項技術將徹底革新人力資源行業。
E&Y;使用電子郵件和日曆資料來瞭解員工如何工作
標簽——行為分析
Ernst和Young是美國最大的會計師事務所之一,它透過檢視員工的日曆和電子郵件資料確定要及時和誰進行接觸。公司的哪些員工處於壓力之下,哪些人最積極地超額完成公司標的。
卡耐基梅隆大學的“超級AI”引領德州撲克專業人士
標簽——創新,遊戲代理
CMU釋出了一個秘密方法——打造出超人類的人工智慧來打敗撲克專業人員。這個方法具有重大意義,因為沒有限制的德州撲克是所謂的“不完美資訊遊戲”,也就是說,不是所有玩家都能獲得遊戲中所有元素的資訊。這與圍棋等棋類遊戲形成了鮮明對比,棋類遊戲都有一個棋盤,其中包含了所有的棋子,上面的資訊對於玩家來說一目瞭然。
深度學習模擬網路威脅
標簽——創新,網路安全,深度學習
科學家藉助人工智慧(AI)的力量開發了一個應用程式,結合現有的解密工具,計算出密碼。Thomas Ristenpart說,他可以幫助普通使用者和公司衡量密碼的強度。Thomas Ristenpart是一名電腦科學家,在紐約康奈爾科技大學學習電腦保安,但是他沒有參與這個專案。這項新技術可能被用於密碼的解密,來幫助檢測計算機入侵。
Mozilla釋出語音識別模型和語音資料集兩款產品
標簽——產品釋出,語音識別,深度學習
為了加快音訊領域的發展,Mozilla釋出了世界上第二大開放的語音資料集,同時還開放了語音識別的前沿技術。該產品的釋出勢必會影響語音識別技術的發展。
課程內容快速獲得:AI“程式設計人員最前沿深度學習——第2部分”
標簽——深度學習
“程式設計人員最前沿的深度學習,第2部分”課程,現在已經面向大眾開放了。對於那些沒有機會看到課程第1部分的人來說,這門課程將以實用的方式向你介紹深度學習的基礎知識。第2部分課程讓你瞭解深度學習的細節並向你介紹業內正在進行的前沿探索。
中國將允許自動駕駛汽車在公共道路上進行測試
標簽——自動駕駛汽車,交通工具
中國正在向自動駕駛汽車開放道路。北京市交通委員會發表宣告稱,在某些特定的道路上,某些情況下,在中國註冊的公司將能夠測試他們的自動駕駛汽車。
自動機器學習技術
標簽——自動化機器學習
自動化機器學習是一項新技術。它完成了資料科學生命週期所需的繁重工作。這是一個非常好的想法;雖然我們以前擔心調優引數和超引數,但是自動化機器學習系統可以透過多種不同的方法來最佳化這些引數。
在2018年我們還有哪些期待呢?
科技行業裡變化如此之大,以至於很難跟上當前的趨勢。它將會繼續發展,直到尖端研究轉化為普通人使用的技術。舉個例子,你可以看到深度學習研究對計算機視覺的影響,像人臉識別,自動駕駛汽車這樣的應用。在未來,你將看到應用程式的蓬勃發展,這些應用程式由深度學習技術驅動。
下麵列出了我特別期待的幾件事:
-
Will Hinton的膠囊網路會是深度學習領域的下一個風口嗎?
-
資料科學的研究將越來越多地受到社群的影響。
-
使用工具將變得更加簡單,大多數手動操作細節都將自動化。
-
在交通運輸方面。將道德規範和規章制度落實到位。
-
硬體將更便宜,更高效——會傾向於使用人工智慧晶片。
-
隨著開放課程的增加,學習的重點將轉向自我學習。
-
自動化機器學習將會變得有價值。
-
GANs功能將會變得更強,工業將開始使用GANs了。
-
深度強化學習是所有學習技術中最流行的技術,將在大多數商業應用中使用。
-
期待開發一個解釋性的黑盒模型。
-
很多資料來源,如物聯網裝置、中央電視臺、社交媒體等,這些資訊將幫助我們建立更好的自動化的系統。
正如Andrej Karpathy——一位在資料科學領域傑出人物所解釋的那樣:
神經網路不只是另一種分類器,它代表了我們編寫軟體思想轉變的開始。這些思想是軟體2.0版本。軟體2.0不會取代我們現在所知的軟體。但是它將會接管越來越多的當今軟體的功能。
尾註
本文列舉了一些在2017年發生在資料科學行業的開創性事件。以及這些事件對資料科學專業人士的影響。還展現了在不遠的將來可以看到這些技術的發展路徑。
如果你知道一個有突破性的事件並且想要分享出來,請在下麵寫下你的評論。
原文連結:
https://www.analyticsvidhya.com/blog/2017/12/reminiscing-2017-defining-moments-and-future-of-data-science/
作者:楊金鴻,北京護航科技有限公司員工,在業餘時間喜歡翻譯一些技術檔案。喜歡閱讀有關資料挖掘、資料庫之類的書,學習java語言程式設計等,希望能在資料派平臺上熟識更多愛好相同的夥伴,今後能在資料科學的道路上走的更遠,飛的更遠。
本文轉自:資料派THU 公眾號;
END
版權宣告:本號內容部分來自網際網路,轉載請註明原文連結和作者,如有侵權或出處有誤請和我們聯絡。
關聯閱讀:
原創系列文章:
資料運營 關聯文章閱讀:
資料分析、資料產品 關聯文章閱讀: