歡迎光臨
每天分享高質量文章

第二屆Byte Cup來襲,贏得2萬美元獎金,登上位元組跳動面試直通車

 

2018 Byte Cup 國際機器學習競賽(以下簡稱 ByteCup)是一項面向全球的機器學習競賽,由中國人工智慧學會和位元組跳動聯合主辦,資料競賽平臺 biendata.com 承辦,旨在促進機器學習的學術研究和具體應用。2016 年,首屆 Byte Cup 舉辦,共吸引全球 1000 多支隊伍參賽,共同完成“為頭條問答的問題在今日頭條專家使用者中尋找潛在的答案貢獻者”這一競賽任務。2018 年 ByteCup 釋出的新任務是“自動為文章生成標題”。

 

我們正處於一個資訊爆炸的時代。據 IDC 統計,網際網路資料量已躍至 ZB 級別(1ZB=240GB),預計 2020 年達到 35ZB。我們每天也能看到大量的資訊,包括新聞快訊、社交網路更新、事件評論,以及專業教程等等。此外,搜尋引擎並不能徹底資訊過載問題,而移動裝置的普及和碎片化的閱讀方式讓這個問題更加嚴重。因此,如果可以開發出自動提取文字摘要的機器學習模型,就可以幫助消化海量的資訊。

 

文字摘要一直都是機器學習領域一個重要的熱點,但是卻有很大的難度。例如,給單篇文章起標題/摘要的時候,很難有詞頻作保證,而是需要模型可以理解內容,甚至做一些推理。在很多地方,摘要生成和機器翻譯有類似之處。然而,和機器翻譯不同的是,自動文字摘要的輸入和輸出很不平衡,此外機器翻譯任務的輸入輸出序的列通常有一些詞義層面上的直接對應,這種對應在摘要任務中卻沒那麼明顯。

 

位元組跳動於 2012 年成立,旗下有大量產品可以讓使用者閱讀、消費和創作內容,包括大家熟悉的今日頭條和抖音短影片,以及很多海外產品,如 TopBuzz 和 Tik tok。此外,位元組跳動還在 2016 年成立了 AI 實驗室,實驗室改寫了很多不同的領域,包括機器學習、自然語言處理、計算機視覺、語音識別、資料挖掘、人機互動等,而自然語言處理領域又有機器寫作、機器翻譯、NLP 基礎、問答、對話以及推薦/搜尋等方向。

 

 競賽任務 


Topbuzz 是位元組跳動為北美和巴西的使用者創造的一站式內容消費平臺,它利用機器學習演演算法為使用者提供個性化影片、GIF 圖、本地新聞及重大新聞。目前,Topbuzz 每天都會釋出大量的文章,利用人工智慧為創作者提供更好的標題選擇,是 Topbuzz 最佳化使用者體驗的探索方向之一。此次競賽任務便是為 Topbuzz 提供的英文文章自動生成標題。


▲ 本次比賽邀請了數十位學界和業界的頂尖學者作為顧問

 

 比賽獎勵 


前 10 名的隊伍將獲得證書和位元組跳動招聘面試直通車的機會。周冠軍將獲得周冠軍證書。


1. 總獎金 萬美元


一等獎 名:10,000 美金

二等獎 名:每名 3,000 美金

三等獎 名:每名 1,000 美金


2. 周冠軍自 2018 年 月 27 日起,評測系統將選出周冠軍。周冠軍由過去 天內的提交成績決定。

 

 比賽時間 


8 月 15 日 :比賽開放提交答案入口

8 月 15 日- 11 月 15 日:比賽期(比賽期間可隨時報名

11 月 16 日:釋出最終測試集

11 月 17 日:公佈測試集排名,排名前 10 的隊伍一週內提交一篇不超過 4 頁的參賽方法說明(ACM 雙列標準模板,中英文皆可)。

11 月 30 日:公佈最終排名。

 

 資料集 

 

本次競賽使用的訓練集包括了約 130 萬篇文字的資訊,每篇文字都是一個類似json 格式的行,如以下內容:


{“content”: “Being the daughter of Hollywood superstar TomCruise and America’s sweetheart Katie Holmes…”, 
“id”: 1198440, 
“title”: “Suri Cruise 2018: Katie Holmes Bonds With DaughterDuring Dinner Date While Tom Cruise Still MIA”}

 

檔案一共包含三類資訊:


1. 文章idid):每篇文字對應一個 unique id


2. 文章內容(content):即文章的內容字串;


3. 文章標題(title):文章的標題,參賽選手需要自己生成驗證集和測試集的標題。

 

驗證集和測試集格式和訓練集相似,但是沒有 title,需要參賽選手預測。

 

說明:訓練集用於模型的學習,驗證集用於線上實時評估演演算法效果,測試集用於最終的效果評測。

 

 相關研究 


目前,自動檔案摘要技術主要分為抽取式(extractive)和摘要式(又叫生成式)(abstractive)兩種。

 

抽取式摘要相對較為成熟。這種方法利用如 text rank 這樣的排序演演算法,對處理後的文章陳述句進行排序。不過抽取式摘要在語意理解方面考慮較少,無法建立文字段落中的完整的語意資訊。

 

相較而言,生成式技術需要讓模型理解文章語意後總結出摘要,更類似人類的做法。不過這種技術需要使用機器學習技術,長期以來並不成熟。轉折點出現在 2014 年。這一年,Bengio 等人發表論文 Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation,正式引入了 sequence-to-sequence 模型。這一模型透過兩個迴圈神經網路,分別把輸入文字轉化成向量,再把向量轉成輸出序列。這種模型在論文中主要用來完成機器翻譯任務,並且後來被應用在谷歌翻譯中,但後續在文摘生成任務中也產生了廣泛的應用。此後,這種利用深度學習的 sequence-to-sequence 方法不斷被改進,在一些標準的評測資料集(如 DUC-2004)上,已經超過了傳統的抽取式方法。

 

例如,2016 年,Facebook AI 實驗室(FAIR)的學者發表論文 A Convolutional Encoder Model for Neural Machine Translation,在編碼的時候用 CNN 取代 RNN,獲得不錯的效果。Salesforce 的研究人員 2017 年發表的論文 A Deep Reinforced Model for Abstractive Summarization 中,使用了增強學習,在 CNN/Daily Mail 資料集上的 ROUGE-1 分數達到 41.16 分。同年,又是 FAIR 發表了論文 Convolutional Sequence to Sequence Learning,引入 attention 機制,不僅提高了評測分數,還極大地提升了速度。

 

2016 年,來自 IBM 沃森的研究人員發表論文 Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond,和之前的論文不同,這篇論文把機器翻譯和文字摘要任務完全分開,專門針對文字摘要提出了更合適的模型,除此之外,文章還釋出了兩個新的資料集。

 

中國也有許多學者在從事相關工作,例如北大的萬小軍老師。他和姚金戈的綜述《自動文摘研究進展與趨勢》把摘要技術框架總結成 4 個步驟:內容表示 → 權重計算 → 內容選擇 → 內容組織,並對每個步驟都作了介紹。


自動文摘研究進展與趨勢:


http://qngw2014.bj.bcebos.com/zhuankan/12/%E8%87%AA%E5%8A%A8%E6%96%87%E6%91%98%E7%A0%94%E7%A9%B6%E8%BF%9B%E5%B1%95%E4%B8%8E%E8%B6%8B%E5%8A%BF.pdf

 

 比賽組委會 

 

主辦:中國人工智慧學會

聯合主辦:位元組跳動

聯合組織:IEEE 中國代表處、Biendata.com

 

 參賽方式 

  

點閱讀原文連結或掃描參賽二維碼可直達賽事頁面,註冊網站 -下載資料,即可參賽。


友情提示,因涉及到資料下載,強烈建議大家登入 PC 頁面報名參加~~


大賽頁面地址:

https://biendata.com/competition/bytecup2018/

?


現在,在「知乎」也能找到我們了

進入知乎首頁搜尋「PaperWeekly」

點選「關註」訂閱我們的專欄吧

關於PaperWeekly


PaperWeekly 是一個推薦、解讀、討論、報道人工智慧前沿論文成果的學術平臺。如果你研究或從事 AI 領域,歡迎在公眾號後臺點選「交流群」,小助手將把你帶入 PaperWeekly 的交流群裡。


▽ 點選 | 閱讀原文 | 立刻報名

贊(0)

分享創造快樂