但是,本文作者前谷歌工程師、Inovo.vc的CTO Ric Szopa認為,AI從業者的技能正在貶值。他從一個選擇題入手告訴我們,AI工具、資料集、資金投入以及行業+AI的優勢正在一步步弱化單一的AI基礎技術優勢。
編譯:小蔣、李可、狗小白、周素雲
來源:大資料文摘(ID:BigDataDigest)
先來做一道選擇題。
Alice和Bob是兩位AI創業者, 他們的公司籌集了大致相同的資金,併在同一個市場上展開了激烈的競爭。
Alice把大部分錢花來僱傭最好的工程師,請來了一批在人工智慧研究方面經驗豐富的博士。
而Bob選擇僱用資質一般但還算能幹的工程師,並將省下來的錢用於獲得更好的資料。
如果是你,你會給誰投資?
當然是Bob。
為什麼呢?
從本質上講,機器學習的原理是從資料中獲取資訊,並將其轉化為模型權重。更好的模型使得這個過程更有效(時間或者整體質量方面),但如果假設模型訓練相對都比較充分,更好的資料肯定會產生更好的結果。
為了說明這一點,讓我們再進行一個快速而簡單的測試。
假設我建立了兩個效能不太一樣的摺積網路。“更好”的模型的最後一個全連線層有128個神經元,而“稍微差一點”的只有64個。我在不同大小的MNIST資料集的子集上訓練它們,並繪製模型在測試集上的準確率與訓練樣本數的折線圖。
▲藍色是“更好”的模型,綠色是“稍微差一點”的模型
很顯然,訓練資料集大小具有積極影響(至少在模型開始過擬合和準確率達到穩定之前)。值得一提的是,在40000個樣本上訓練的“稍微差一點”模型的準確率比在30000個樣本上訓練的“更好”模型的準確率要高!
在我的小例子中,我們處理的是一個相對簡單的問題,而且有一個比較全面的資料集。而在現實生活中,我們的條件並不是如此完美。在許多情況下,增加資料集經常會具有非常顯著的效果。
事實上,Alice的工程師不僅僅是和Bob的工程師競爭。由於AI社群的開放文化及其對知識共享的重視,他們的競爭對手其實來自谷歌、Facebook、微軟以及世界各地數千所大學的研究人員。
因此, 好的工程師雖然很重要的,但如果你是AI領域的話,資料的競爭優勢會顯得更為關鍵。
然而,更加重要的問題是,你如何才能保持自己的優勢。
01 AI工具正越來越簡單好用
2015年,當我還在谷歌工作,剛開始玩DistBelief,也就是後來我們所熟知的Tensorflow。當時這個工具太難用了,所以當時想讓它在谷歌構建的系統之外執行完全是一個白日夢。
2016年末,我進行了一個概念驗證的研究,在組織病理學影象中檢測乳腺癌。當時我想使用遷移學習:採用谷歌當時最好的影象分類架構Inception,併在我的癌症資料上重新訓練。我可以使用谷歌提供的一個經過預訓練的初始權重,改變頂層結構來匹配我正在做的工作。
在TensorFlow上經過長時間的反覆嘗試,我終於找到了操作不同層的方法,讓它基本上運作起來。這需要很大的毅力去閱讀TensorFlow的資料。不過至少我不必太擔心依賴關係,因為TensorFlow貼心地準備了Docker映象。
▲來源:Medium
在2018年初,多虧了Keras(基於TensorFlow的一個框架),只需幾行Python程式碼就能完成這個專案,而且使用它不需要你對自己正在做的事情有深入理解。但它仍然有個痛點:超引數調優。
如果你有一個深度學習模型,可以調節多個引數,如層數和大小等。在我寫這些文字的時候(2019年初),谷歌和亞馬遜提供了自動模型調優服務(Cloud AutoML,SageMaker)。
我預測手動調優遲早會滅絕,工程師們也會從這項繁瑣的工作中解脫了。
總的趨勢是,將困難的事變得容易,你無需深入理解就能實現更多的東西。過去的那些偉大工程現在聽起來相當一般,所以我們不應該期望我們現在的成就在將來有多好。
聽起來很歡欣鼓舞是不是,但是,對於那些在AI技術上投入巨資的公司和個人來說,這可以是個壞訊息。目前來說,掌握某些AI技術還算是企業的競爭優勢,因為一個稱職的機器學習工程師需要花費大量的時間閱讀論文,並需要扎實的數學背景。
但是,隨著工具的改進,情況將不再如此。讀論文更多會轉向讀工具教程。如果你沒有很快意識到你該關註的重點,一個帶了資料更完備的實習生團隊就可能會搶走你的飯碗。
02 想長期保持競爭優勢?難上加難!
讓我們再回到文章開頭的例子。憑藉出色的資料集,Bob成功地與Alice展開競爭,推出了自己的產品,並穩步增加了市場份額。他也慢慢可以開始僱傭更好的工程師,因為坊間傳言他的公司是一個好去處。
但這時候,又出現了一個Chuck,雖然入局晚,但他比Bob更有錢。
在構建資料集時,錢至關重要。但透過砸錢來加快工程專案進度非常困難。事實上,使用太多新人可能會減緩進度,但構建資料集就不同了。資料集需要大量人工操作,而你可以透過僱用更多人手來搞定它。另一種可能是有人擁有資料,那麼你所要做的就是支付資料使用費。
無論如何,錢能讓資料集來得更快。
但是問題來了,為什麼Chuck可以籌到比Bob更多的錢?
當創始人提出一輪融資時,他們會努力平衡兩個可能相互矛盾的標的。他們需要籌集足夠的資金在市場上競爭,但也不能太多,因為這會導致股權過度稀釋。創始團隊必須在創業公司中保持足夠的股份,以免失去創業的動力。
另一方面,投資者希望投資具有巨大上升潛力的創意,但他們必須控制風險。隨著預期風險的增加,他們會為支付的每一美元要求更大比例的股份。
當Bob籌集資金時,“人工智慧確實對產品有所幫助”不過只是一個信念。無論他作為創始人多優秀,她的團隊有多好,但有可能他試圖解決的問題根本就難如登天。Chuck的情況非常不同。他知道他面臨的問題完全可以解決!
在這種情況下,Bob的應對方法很可能是提出另一輪融資,以便處於有利位置,因為他(暫時)仍然在競爭中領先。但是,如果Chuck可以透過戰略合作關係穩固獲取資料呢?比如舉個癌症診斷初創公司的例子,Chuck可能利用他在一家重要醫療機構的內部職位,與該機構達成一份內部協議。這時候, Bob很可能無法抗衡。
03 AI的槓桿效應
對業務進行分類的一種方法是,它是直接增加價值,還是為某些其他價值來源提供槓桿效應。以一家電子商務公司為例,增加價值就像創造了新的產品線,建立新的分銷渠道則是一個槓桿,削減成本也是槓桿。
槓桿可能比直接施力更有效。但是,槓桿僅在與直接價值來源耦合時才起作用。一個微小的數字,翻了兩倍,三倍,還是很小。如果你沒有可出售的部件,開闢新的分銷渠道也只是浪費時間。
在這種情況下我們應該如何看待AI?有很多公司試圖將AI作為他們的直接產品(用於影象識別的API等),對一個AI專家,這可能很有吸引力。
然而,這常並不是一個好的選擇。首先,你是在Google和亞馬遜等這些大公司競爭。其次,開發真正有用的通用AI產品非常困難。例如,我一直想使用Google的Vision API。不幸的是,我們從未遇到過客戶需求與產品充分匹配的情況。總是有各種各樣要麼開發不夠要麼開發過度的情況。
更好的選擇是將AI視為槓桿。
你可以採用現有的,有效的商業樣式,透過AI增強它。例如,如果生產流程依靠人類的認知勞動,那麼將其自動化可能會為毛利率帶來顯著提升。這裡我能想到的例子有:心電圖分析,工業檢查,衛星影象分析。同樣令人興奮的是,因為AI屬於輔助後端,仍然可以利用非AI業務來保持公司的競爭優勢。
04 結論
AI是一項真正的變革性技術。但是,以此為基礎創業是一件棘手的事情。你不應該完全依賴於AI技能,因為市場趨勢就是技術會貶值。
構建AI模型可能非常有趣,但真正重要的是擁有比競爭對手更好的資料。
保持競爭優勢很難,特別是遇到比你資金更充足的競爭對手,這種情況在你的AI創業進行時很可能發生。你的標的應該是建立一個可擴充套件的資料收集過程,而這個過程很難被競爭對手復現。
AI非常適合顛覆依賴低附加值、勞動重覆性的行業,因為它使該工作自動化成為可能。
相關報道:
https://www.kdnuggets.com/2019/01/your-ai-skills-worth-less-than-you-think.html
朋友會在“發現-看一看”看到你“在看”的內容