近日,國際資料挖掘頂級會議 KDD (ACM SIGKDD CONFERENCE ON KNOWLEDGE DISCOVERY AND DATA MINING) 官網正式公佈了 KDD Cup 2019 三項重大比賽,其中首次引入的 AutoML 挑戰賽受到眾多學術及工業界專業人士的密切關註。作為 KDD Cup 歷史上的首次 AutoML 挑戰賽,第四正規化將聯手 ChaLearn、微軟共同承擔此次大賽重任,併為此次比賽設定了“史上”難度最高的比賽專案。
第四正規化、ChaLearn 和微軟將聯合主辦 KDD Cup 2019 AutoML 挑戰賽,這是 KDD Cup 22 年曆史中首次舉辦 AutoML 挑戰賽,同時也是歷史上首個基於時序關係型資料的 AutoML 比賽。
比賽連結
大賽官網:
https://www.4paradigm.com/competition/kddcup2019
報名地址:
https://competitions.codalab.org/competitions/21948
比賽背景
時序關係型資料在線上廣告、推薦系統、金融市場分析、醫療等應用場景中非常常見,人們往往需要利用這樣的資料去構建機器學習模型,並應用機器學習模型提升對應業務的效果。以線上廣告點選率預測問題為例,每個樣本就是向用戶展示廣告,樣本標記為使用者是否點選廣告。因為是實際的服務系統,所有樣本都是時序產生。
時序資訊不僅用來表示事件的時間順序,合理的利用可能還可以提高機器學習模型的效果。資料科學家可以利用這些時序資訊生成時間特徵,使資料更具預測性。同時,線上廣告系統中除了表示廣告展示和點選行為的樣本主表之外,還可能會使用相關表來儲存使用者、廣告和廣告投放者的特性,這些輔助資訊可以進一步豐富資料,提高廣告點選率預測模型的效能。
此外,當知道不同表之間的關係時,資料科學家可以將不同表結合,產生有意義的聯絡,進一步提高預測能力。與一般的用來建模的單張樣本表的資料相比,時序關係型資料通常包含更多有用的特殊資訊,可以利用這些資訊來進一步提高機器學習效能。
在傳統的機器學習應用中,需要經驗豐富的專家才能從時序關係型資料中挖掘出有效的時序資訊,並加以利用提升機器學習模型的效果。即使具備較深的知識儲備,專家也需要透過不斷的嘗試和試錯,才能構建出有價值的時序特徵,並且利用好多個相關聯表來提升機器學習模型的效能。此外,選擇合適的機器學習模型和超引數也需要強大的機器學習專業知識作為支撐。
因此,傳統機器學習極為耗費人力、技術門檻高,也讓沒有機器學習背景的人無法高效利用時序關係型資料。AutoML 近年來成為了機器學習重要的研究方向。該技術在模型選擇、神經架構搜尋、特徵工程等方面取得了較大的成功,大幅降低了機器學習的應用門檻,讓沒有機器學習背景的人同樣可以輕鬆使用。
因此,為了讓更多的科學家關註 AutoML 領域,讓更多的非專業人士能夠利用時序關係型資料輕鬆地構建有效的機器學習模型,與以往的僅關註單樣本表的 AutoML 挑戰賽不同,第四正規化和 ChaLearn 決定舉辦專門針對時序關係型資料的 AutoML 挑戰賽,希望讓更多的資料科學家和開發者加入其中,集思廣益,從而讓 AutoML 更好的利用時序關係型資料,提升模型的預測效能,讓 AutoML 解決方案能夠更加符合實際應用的需求。
關於比賽
競賽者將利用時序關係資料,設計一個能夠自主(無人為幹預)實現監督學習的AutoML計算機程式。該比賽將聚焦在二分類問題,且時序關係資料均來自實際業務場景。根據大多數實際應用的時間屬性,資料集按時間順序劃分為訓練集和測試集。訓練集和測試集都由一個主表、一組相關表和一個關係圖組成:
-
主表包含帶有樣本標記、部分特徵和時序標簽的實體,用於二分類;
-
相關表包含了主表中實體的重要輔助資訊,可用於提高預測效果。相關表中的欄位可能含有時間標簽,意味著該表中的資訊與時間有關。
-
不同表中資料之間的關係用關係圖描述。需要註意的是,任何兩個表(主表或相關表)都可以有一個關係,任何一對錶最多隻能有一個關係。主辦方保證訓練集和測試集的關係圖是相同的。
參賽者需要提交透過主表、相關表和關係圖自動構建機器學習模型的 AutoML 方案。一旦經過訓練,模型將以測試主表(不包括樣本標記)、相關表和關係圖作為輸入,並預測測試集的樣本標記。參賽者提交的方案將在受限制的計算資源和時間內進行測試。
為了讓參賽者能夠更好的開發並評估方案,我們提供了 10 個時序關係資料集,其中 5 個公共資料集,5 個私有資料集。
比賽挑戰
參賽者設計的 AutoML 方案中,應具備高效發現時序特徵、捕獲多個表之間資訊的能力,並以全自動的方式構建機器學習模型。具體的挑戰如下:
-
如何自動生成有效的時序資訊?
-
如何將多個相關表資訊有效整合?
-
如何解決資料分佈隨時序緩慢變化的問題?
-
如何自動捕獲有意義的表間聯絡?
-
如何自動高效地選擇合適的機器學習模型和超引數?
-
如何讓方案更通用,即如何使其適用於未知的任務?
-
如何保持計算和記憶體成本可接受?
比賽階段
Feedback 階段:即反饋階段。在此階段,參賽者可以在五個公共資料集上進行訓練,開發 AutoML 方案。參賽者可以進行有限數量的提交,並獲得作為反饋的所有五個公共資料集的測試資料的效能。參賽者可以下載有標記的訓練資料集和未標記的測試資料集。因此,參賽者可以線上下準備他們的程式碼並提交。該階段最後的程式碼提交將最終作為下一階段進行盲測的程式碼。
Check 階段:即校驗階段。該階段將在五個私有資料集上對第一階段的最後一次提交的程式碼進行盲測,確保提交的方案順利執行,不會出現例如超時或者記憶體上限溢位等問題,但參賽者無法看到具體的結果,所有小組具備一次更新程式碼的機會,以保證在最終階段正確的執行自己的程式碼。
AutoML 階段:即盲試階段。該階段將測試方案在私有資料集上的效能。參賽者的程式碼將在無需人為幹預情況下完成訓練和預測。AUC 作為評價指標,最終將根據五個私有資料集的平均排名進行評分。若最終比分相同,則優先考慮可解釋性更好的方案,可解釋性將由專家團隊評審。
以上三個階段的計算及記憶體資源均有所限制,因此方案應兼顧效果及效率。
時間表
2019 年 4 月 1 日:比賽開始,釋出公共資料集。參與者可以開始提交程式碼併在排行榜上獲得即時反饋資訊。
2019 年 6 月 27 日:Feedback 階段結束,Feedback 階段的程式碼自動遷移到 Test 階段。
2019 年 7 月 7 日:Check 階段結束,主辦方開始程式碼驗證。
2019 年 7 月 11 日:提交報告的截止日期。
2019 年 7 月 16 日:AutoML 階段結束,開始評審流程。
2019 年 7 月 20 日:宣佈 KDD Cup 冠軍。
2019 年 8 月 4 日:在 KDD 上舉辦頒獎儀式。
獎金
第一名:15000 美元
第二名:10000 美元
第三名:5000 美元
第 4-10 名:每人 500 美元
報名資質
-
本次競賽將在 CodaLab 競賽平臺上進行。
-
本次競賽對所有感興趣的研究人員、專家和學生完全開放,競賽組委會成員及相關人員不得參賽。
-
參賽者可以由一人或多人組成的團隊提交方案。
-
每個團隊都需要指定領隊,負責與組織者溝通。
-
一個人只能加入一個團隊。
-
根據 AutoML 階段的最終得分來選出比賽的勝利者。
-
若最終比分相同,則優先考慮解釋性更好的方案。
-
每個參賽團隊都必須提供描述其最終解決方案的簡短報告(情況說明書)。
-
透過參加本次競賽,您將授權組織者權利,對您提交的作品以進行評估和賽後研究。
-
所有參賽隊伍必須在 Check 階段兩周前至少有一次成功的程式碼提交,否則視為無效隊伍,不參與最終評測。
大賽主辦方
第四正規化
第四正規化是國際領先的企業級人工智慧技術與服務提供商,核心業務是利用機器學習技術,幫助企業提升效率、降低風險,獲得更大的商業價值。其核心產品——企業級人工智慧 PaaS 平臺“第四正規化先知”,幫助企業級使用者及合作伙伴構建從資料到 AI 產業落地的閉環,做出更智慧、更快速的商業決策。以平臺推動人工智慧快速、規模化產業落地的同時,第四正規化也深耕人工智慧基礎性研究領域。
在 AuroML 方面,第四正規化已自主研發了傳統機器學習、深度學習等多方向的自動化技術,囊括了自動特徵組合(FeatureGo)、自動時序特徵(TemporalGo)、自動深度稀疏網路DSN(Deep Sparse Network)、Auto-SSL(自動半監督學習)、AutoCV、AutoNLP、多保真度最佳化等多項 AutoML 支撐技術,併成功應用在金融反欺詐、個性化推薦等多個業務場景中,讓企業普通開發人員取得了接近甚至超過資料科學家的業務效果。
此外,第四正規化多次獲得 PAKDD、NeurIPS、KDD 等頂級學術會議的 AutoML 比賽主辦權,併在 PRICAI 2018 上舉辦 AutoML Workshop:
2018.4——PAKDD 2018 AutoML Challenge
https://www.4paradigm.com/competition/pakdd2018
2018.12——NeurIPS 2018 AutoML Challenge
https://www.4paradigm.com/competition/nips2018
2019.4——PAKDD 2019 AutoML Challenge
https://www.4paradigm.com/competition/pakdd2019
2019.8——KDD Cup 2019 AutoML Challenge
https://www.4paradigm.com/competition/kddcup2019
2019.12——2019 AutoDL Challenge
https://autodl.chalearn.org/
ChaLearn
Chalearn(http://chalearn.org)是 AutoML 領域最權威的學術組織,在組織學術挑戰賽方面擁有豐富的經驗。ChaLearn 囊括了資料收集程式、評估協議、新穎的挑戰場景(如競賽)、賽事組織者培訓、挑戰賽分析、賽事宣傳等內容,積極推動 AutoML 的前沿技術的發展。
KDD Cup 介紹
KDD Cup 是由 ACM 的資料挖掘及知識發現專委會(SIGKDD)主辦的資料挖掘研究領域的國際頂級賽事,同時也是資料挖掘國際頂級會議 KDD 上的重頭戲,至今已有 22 年曆史。作為目前資料挖掘領域最有影響力、最高水平的國際頂級賽事,KDD Cup 每年都會吸引來自世界各地資料挖掘領域的頂尖專家、學者和工程師參賽,因此也有“大資料奧運會”之名。