歡迎光臨
每天分享高質量文章

科大訊飛兩代AI平臺演進之路–訊飛雲端計算研究院副院長龍明康訪談

6 月 1 ~ 2 日,GIAC 全球網際網路架構大會將於深圳舉行。GIAC 是一個面向架構師、技術負責人及高階技術從業人員的技術架構大會。今年的 GIAC 已經有騰訊、阿裡巴巴、百度、今日頭條、科大訊飛、新浪微博、小米、美圖、Oracle、鏈家、唯品會、京東、餓了麼、美團點評、羅輯思維、ofo 等公司專家出席。

在大會前夕,高可用架構採訪了本屆 GIAC人工智慧分論壇 講師龍明康,就目大家廣泛關註的AI技術方面的問題進行了訪談。

龍明康,2011年加入訊飛,當前任雲端計算研究院副院長,深度參與了語音雲從0到1的建設,主導了語音雲從日均PV從百萬到千億的演進。並主導了AIUI(人機互動系統)、AIoT(智慧物聯網)平臺的建設。擅長高效能高可用的基礎元件和雲平臺系統架構,對AI/人機互動/即時通訊/智慧物聯網領域的平臺化有深入的理解。


高可用架構:很高興能採訪到您。您從事AI有多少年了?AI之前您做什麼呢?能否簡單的介紹一下您?

龍明康:大家好,我是明康,從2011年本科畢業後就來到訊飛參與到語音雲的建設。我的工作主要是把搞AI研究的同學的成果轉移到平臺上,降低開發者使用AI的門檻,讓AI Link到更多的場景中去,用AI賦能各行各業,當前我們開放平臺上開發者數量超過了80萬,這個規模“可能”是國內最大的AI平臺了!大家所熟知的訊飛語音輸入法、鎚子釋出會語音輸入都是這個平臺支撐的。


這個過程中,我還解決各種高併發高可用系統的問題,忙裡偷閑也做了個C10M的推送系統XPush。在2015年的時候,智慧硬體快速爆發,我們發現平臺的能力已經很難滿足開發者需求,於是啟動了AIUI專案,定義了新一代的智慧人機互動標準。這個專案大概閉關了3個月,其中架構討論一個月,研發2個月,發出了第一個版本。


也正是這個專案激起了我對HCI的興趣,如何標準化無、強視覺呈現的語音互動系統,如何提供一套GUI與VUI結合的標準技術棧,以及如何降低開發門檻都是非常有挑戰的事情。在這個過程中也逐漸意識到AI Link場景的重要性,於是啟動了AI2.0以及AIoT平臺的研發。


當前我重點在主導這兩件事情。由於我們做的很多事情都比較超前,所以需要大量的架構和技術方案探索,因此也沒有太多時間在一線Coding,這時常困擾著我。另外我個人比較喜歡開源,最喜歡的專案是Nginx,比較喜歡google的一些技術棧,如Golang,gRPC等。

高可用架構:訊飛在語音識別等場景有很深的積累,能否簡單介紹一下語音識別場景的難點?以及訊飛在語音識別場景所使用的技術?踩過什麼樣的坑?有沒有發生過一些有意思的故事?

龍明康:語音識別如果在理想的環境下是比較好做的,業界現在在理想場景下的語音識別率差距越來越小。難點是如何解決複雜的環境噪音、使用者帶口音、遠場等情況下的識別率低的問題。另外做通用領域的識別相對好做,而專業領域就比較難做,比如醫療、法律等方向。還有一個難點就是做使用者級的個性化聲學模型、語言模型,深度學習當前大多數還是有監督學習,所以如何結合應用場景來降低標註成本也是很有挑戰的事情。 當前訊飛語音識別主要使用自研CNN結構的聲學模型,另外也有Encoder-Decoder方案。 踩過比較大的坑應該就是關於識別率的最佳化問題。早期大家喜歡在實驗環境做大量的最佳化,達到85%的識別率後,才上線。實際上線後統計,發現只有60%識別率。所以後來吸取了這些經驗,採取先上線,利用真實資料快速迭代的方法。

高可用架構:什麼樣的原因促使您要自建AI平臺?相比較其他的AI平臺,您要解決什麼樣的痛點?支援了哪些AI相關的技術?


龍明康:語音雲大概是在2009年由於繼棟大大提出並啟動專案,早期訊飛的AI能力面向toB銷售,現在看來,當時的樣式就是私有雲的方式。隨著對接越來越多,需求定製和技術支援的工作已經不堪重負,大家意識到平臺化、標準化才是出路。當時雲的概念正在爆發,而且移動網際網路也在崛起,在IPhone革命性的觸屏互動出現後,大家一致認為語音輸入將在移動端大有可為,於是結合內部的訊飛輸入法專案一起做了第一代AI平臺。 


上面提到的是內部的痛點,對外而言,我們是想解決開發者使用AI的門檻高的問題,讓AI像水電一樣方便使用是件很難的事情。所以我們也是透過訊飛開放平臺這樣一個視窗,不斷的分析開發者痛點,不斷的改進平臺、API易用性。例如人機互動方案在落地到硬體方案上的週期普遍很長,我們就做了一個成品級解決方案魔飛。我認為現在很多的AI平臺並沒有太多機會接觸到開發者真正的痛點和需求。 當前訊飛的AI平臺支援的範圍比較廣,從語音到影象,從軟體到硬體,大家有興趣可以訪問xfyun.cn來詳細瞭解。

高可用架構:能否簡單的介紹一下人工智慧、機器學習、深度學習、神經網路等專業名詞以及它們之間的聯絡?各自領域通常使用什麼技術?或者說有什麼開源的解決方案?


龍明康:通常人工智慧是指透過普通計算機程式的手段實現的人類智慧技術,核心問題包括建構能夠跟人類似甚至超越的推理、知識、規劃、學習、交流、感知、移動和操作物體的能力等。 機器學習是解決其中學習問題的方法是人工智慧的一個分支。一般的使用到的演演算法有神經網路、決策樹、支援向量機等 深度學習是機器學習的一個分支。常見的開源深度學習框架就是TensorFlow、MXnet等

高可用架構:深度學習的TensorFlow和MXnet應該如何進行選擇?他們各自有什麼樣的優劣?


龍明康:TensorFlow生態很全面,上手簡單,但是效能不夠好。MXnet效能最佳化的比較好,節省視訊記憶體,運算效率高。另外MXnet只做訓練。

高可用架構:目前業內在AI方面的佈局,有自動駕駛、語音識別、智慧客服、機器人等等,能否從技術的角度簡單介紹一下各個方向的難點?(模型、演演算法上有何不同?)


龍明康:語音識別在問題2中已經提到。智慧客服、機器人都偏語意理解領域。眾所周知,漢語是較難掌握的自然語言之一。不同於語音識別,語意理解除了需要被處理語言資訊,還需要更多的輔助資訊,例如知識圖譜、背景關係語境,這些額外資訊如何在模型和演演算法合理的利用當前還是個難題。

高可用架構:能否介紹一下AutoML?AutoML真的能讓普通研發從事AI方面的工作嗎?隨著AutoML越來越強大,AI工程師是否會被取代?


龍明康:Google的AutoML專案旨在利用神經網路設計神經網路,降低人才的門檻,解決當前AI人才極度緊缺的難題。通常一個好的效果模型調優需要以下幾個步驟:資料預處理、特性選擇、模型演演算法選擇、調參、上線後模型的再最佳化、效果評估。AutoML主要完成模型演演算法選擇和模型超引數最佳化。當前Google釋出的Cloud AutoML平臺上只有Cloud AutoML Vision,用於影象識別,從檔案介紹來看已經做到普通研發能使用的程度。


當前AutoML是在一個既定的網路結構上最佳化,而AI工程師可以研究更先進的網路結構和演演算法,所以AI工程師有一部分工作會被AutoML取代,但是完全被取代的可能性比較小。

高可用架構:最近刷遍朋友圈的陸奇離職事件,可謂業內大的人事變動。百度說要all in AI,卻前後經歷了吳恩達、陸奇兩位傳奇人物的離職,是否從另一方面表示AI落地艱難?要做到真正改變人類生活還有一定的距離?


龍明康:百度ALL IN AI後從股價上的表現就說明瞭資本很認可這個戰略。陸奇大大的這個選擇網上有很多解讀,但是我相信他不可能是因為AI落地艱難而退縮。訊飛也一直堅持用人工智慧建設美好世界。當前有很多落地的產品正在改變這人們的生活,例如現在非常火爆的訊飛翻譯機,真正做到了讓世界聊得來。

高可用架構:AI也發展有很多年了,在您看來,AI領域當下的現狀是怎麼樣的?目前的最大的瓶頸可能是什麼?


龍明康:大家都提到人工智慧的三次浪潮,第一次浪潮出現了很多頂級演演算法,但是這些演演算法只能解決狹窄領域的問題,而且當時的計算能力是嚴重不足的,所以進入第一次冬天。第二次浪潮出現了語音識別、機器翻譯、專家系統、類神經網路,但是效果完全達不到人們對AI的預期。第三次浪潮的到來主要依賴大資料技術、深度學習技術的成熟,且在計算能力大幅增加。 當前應該已經到了AI應用爆發的時期,隨著大家對AI的理解越來越深刻,AI已經被應用到越來越多的細分領域,從訊飛開放平臺的開發者增長可見一斑。我認為當前的主要瓶頸還是AI人才短缺,這也包括懂AI的業務專家,他們才是把AI帶到世界每個角落的發動機。

高可用架構:對於想快速掌握AI技能的人,需要學習哪些知識?對此,您又有什麼好的建議?


龍明康:作為普通工程師,想入門AI,首先得大概清楚當前AI的一些現狀,能幹什麼,大概能做到什麼程度。要瞭解這個也比較簡單,從訊飛開放平臺上就可以瞭解到很多。第二步需要對AI的生產環節瞭解,大致分為理論研究、模型訓練、引擎工程化、服務化,訓練的部分還有個深度學習平臺需要建設。


AI的進階之路剛好和上面的生產環節相反。有一些分散式服務經驗的的工程師可以從服務化入手,逐漸瞭解引擎的一些特性和運作機制。如果已經具備一些演演算法功底,包括圖論、機率論相關知識就可以轉做引擎工程化。


引擎工程對效能有非常高的要求,所以需要深入計算機體系結構,結合CPU/GPU/memory最佳化。在這個過程中就可以深入探索下模型是怎麼來的。通常這個時候可以去嘗試使用TensorFlow在一些開源的模型上進行調參,要調好參其實還是非常有門檻,需要具備設計模型的能力,這樣的人在訊飛AI研究院都是非常資深的級別了。


再進階就是搞特徵工程了,偏理論研究,需要深入研究泛函、矩陣分析、機率圖模型、隨機過程、最佳化理論等。對於這個進階過程,訊飛內部都有各個階段的培訓材料,在訊飛開放平臺的AI大學中也有部分分享課程。


總之,想要在AI方向上深耕,去一家靠譜的AI公司,使用上面的平滑過渡路線是比較靠譜的。

高可用架構:作為GIAC的AI講師,能否劇透一下,這次您給大家帶來了什麼樣的乾貨?能否分享一些訊飛語音識別等應用場景的實戰內容以及踩過的坑?


龍明康:我這次分享內容主要是第一代AI平臺從0到1的過程以及在流量爆增的過程中遇到的一些坑。另外會介紹一下人機互動平臺AIUI的架構以及後來抽象出來的第二代AI平臺架構。雖然這個過程中我們也做了大量微服務架構的實踐,但是由於分享篇幅有限,這次不會重點分享。最後還會跟大家務虛分享一下我對AI Link行業的理解。希望本次分享能幫助到大家,謝謝!


本期 GIAC 大會上,人工智慧/大資料部分的精彩議題如下:


參加 GIAC,盤點2018最新技術。點選“閱讀原文”瞭解大會更多詳情。

贊(0)

分享創造快樂