組織方:搜狐、清華大學
獎金:¥75000
初賽提交時間:2019年4月8日 – 2019年5月10日
2019 年 4 月 8 日,第三屆搜狐校園演演算法大賽正式開賽,同期面向參賽選手開放競賽結果提交。本次比賽聯合了清華大學等機構共同組織,面向全球範圍內的全日制學生。
本次比賽的主題是提取文章主題,並判斷文章對主題的情緒。我們生活在一個資訊爆炸的世界,每天能接觸到不同的新聞文章,體裁也多種多樣,包括新聞快訊、廣告軟文、深度分析、事件評論,以及重要人物採訪等等。每天新產生的資訊量已經極大地超過了讀者能夠接受的極限。所以,如果有一種機器模型,可以自動提取出文章的主題,並且判斷出文章對這些主題內容的情感傾向,就可以極大地提高閱讀和消化資訊的效率。
參賽方式:點選閱讀原文直達賽事頁面。
註:因涉及到資料下載,強烈建議大家登入 PC 頁面報名參加。
大賽頁面地址:
https://biendata.com/competition/sohu2019/
具體來說,參賽選手需要根據給定的文章,提取出文章中最重要的三個主題(也就是物體)。所謂物體,意思是人、物、地區、機構、團體、企業、行業等事物。和一般的物體抽取競賽任務不同的是,本次比賽還要求選手判斷文章對主題物體的情感傾向(包括積極、中立和消極三種情緒)。如下圖:
本次比賽可以分成相對獨立的兩個任務:從文章中提取最重要的物體,然後判斷文章對這些物體的情緒。
第一個任務是提取文章中重要的物體。這個任務類似常見的命名物體識別(NER)任務。傳統上來說,NER 任務主要抽取 7 大類物體,包括人名、機構、地名、時間、日期、貨幣和百分比。
目前,已經有很多關於命名物體(NER)的研究和分享出現。在斯坦福大學著名的課程 CS224d: Deep Learning for Natural Language Processing 中,有一次大作業就是用深度神經網路提取命名物體。也有很多人已經自願分享了這次作業的模型方法和程式碼。
作業任務連結:
http://cs224d.stanford.edu/assignment2/index.html
CS224d 作業程式碼分享:
《用深度神經網路處理NER命名物體識別問題》
http://cloud.tencent.com/developer/article/1081991
本次大賽的發起人之一,搜狐科學家、搜狐智慧媒體研發中心負責人楊田也推薦了一篇詳細的命名物體綜述論文 A Survey on Recent Advances in Named Entity Recognition from Deep Learning models。
論文連結:
https://aclweb.org/anthology/C18-1182
不過,本次比賽的難度比傳統的 NER 要大。比賽的最大特點就是實戰與應用。行百裡者半九十,在學術成果的基礎上,精度每嚮應用提高一點,難度就數倍增加,因此比賽的挑戰性非常大。
比賽的物體不僅僅包括人名,地名和機構名的識別,粒度更細,種類也更多。在比賽前期釋出的樣本資料中,物體的例子包括:眾要機械 APP、衛生監督站、媒介、豬瘟、網際網路、錶帶等內容。這也是目前物體抽取技術面對的難點。
隨著網際網路的快速發展,資訊越來越豐富,呈現出多源、異構、海量的特點,也對資訊抽取技術提出了新的要求。很多時候,我們要抽取的並不是一般的物體,而是全新種類的物體。目前,越來越多的人開始研究物體擴充套件技術,目的是抽取開放類別的物體。
一種很自然的想法是把語料中所有的名詞都作為物體備選,然後計算它們與訓練集中種子物體的相似度,找出相似物體。這一思路主要由 Pantel 等人實踐,相關研究記錄在 Web-Scale Distributional Similarity and Entity Set Expansion 一文中。
在提取出物體後,我們還需要判斷文章對物體的情緒。情感分析也是自然語言處理領域的一個重要方向。有大量相關研究可以參考。早期的研究根據構建好的情感詞庫進行判斷。
情感詞庫有很多選擇,例如著名的知網 HowNet 就提供了“《知網》情感分析用詞語集”公開下載。在考慮情感詞庫時,還需要往前追溯 1-2 個詞,看看有沒有“不”、“沒有”等否定詞。
這種方法需要人工構建情感詞庫,但沒有一個情感詞庫可以適用所有應用場景,所以高度依賴人的經驗。此外,這種方法也很難完整地考慮到背景關係的語意資訊。不過,如果剛剛上手情感分析,可以嘗試這種方法。以下連結是一篇基於情感詞典的文字情感分析程式碼:
http://www.aidnoob.com/ai/python/qinggan1/
此後,還出現了基於特徵的情感分析方法。這種方法主要利用統計學領域的知識,從語料中選取特徵對文字進行表示,然後用決策樹、SVM 等方法對情緒進行分類。這種方法仍然高度依賴經驗和特徵的選擇。相關研究有很多,比較詳細的案例介紹來自清華大學計算機系謝麗星在孫茂松教授指導下的碩士論文《基於 SVM 的中文微博情感分析的研究》。
論文連結:
http://nlp.csai.tsinghua.edu.cn/site/images/file/2011_xlx_master_thesis.pdf
論文主要使用 SVM 的方法,分別從微博和 Twitter 預料中抽取了主題相關特徵(如是否包含主題詞、句子中是否缺乏名詞性短語或者代詞等)和主題無關特徵(是否有 url 連結、是否有表情、是否有情感詞和情感短語、形容詞和動詞的個數等),在使用主題無關特徵時獲得的最高準確率為 66.467%,使用主題相關的特徵對情感分類後獲得的最高準確率為 67.283%。
目前主要的情感分析方法大多基於深度學習,首先對詞語、句子和篇章進行向量化表示,然後學習文字的深層語意資訊。這種方法可以自動學習特徵,不需要人工進行特徵選擇和規則制定。很多情感分析研究使用 NLP 常見的 RNN,加上 LSTM 和註意力機制保證語意的完整性。
例如,騰訊的徐漢彬和宋彥就曾經分享了 Keras 程式碼實現對 40 多萬條真實的鵝漫使用者評論資料的情感分類。他們的程式碼透過 Keras 實現,底層框架是 Google 開源的 TensorFlow,詞向量採用騰訊人工智慧實驗室開源的詞向量。
整個模型包含 6 層,核心層包括 Embedding 輸入層、中間層(LSTM)、輸出層(Softmax)。模型中的 Flatten 和 Dense 層用於做資料維度變換,將上一層輸出資料變換為相應的輸出格式,最終的輸出是一個二維陣列,用於表達輸入文字是正面或者負面的機率分佈。
基於LSTM的情感識別在鵝漫評論分析中的實踐與應用:
https://www.infoq.cn/article/zJI*5CGPeRKqHsHJV3OQ
很多論文和公開程式碼主要針對檔案級別的情感分析。但是在本次比賽中,需要更加細緻的分析,因為一篇文章裡可能對不同的物體有不同的情緒。我們在比賽前期給的資料樣本里,已經能看到類似的情況。例如以下這篇文章:
{ “content”: “華為宣佈:起訴美國政府。 新聞越短,資訊越大。 就在上午10時,華為在深圳總部舉行外媒記者會,宣佈一項重要決定:起訴美國政府。 北京時間10時,在外媒記者會上,華為輪值董事長郭平宣佈,華為已向美國聯邦法院提起訴訟,指控美國2019年國防授權法第889條款違反美國憲法。 在郭平的表述中,美國政府一直汙衊華為是威脅,還攻擊華為的伺服器,竊取郵件和原始碼,而且從來沒有提供任何證據支撐其關於華為是網路安全威脅的指控。 而且,美國竭力詆毀華為、影響公眾輿論。更糟糕的是,美國政府試圖阻止華為參與其他國家的5G網路建設。 而採取法律行動是華為不得已而為之的最後選擇,也是受盡壓迫之後的奮力反抗。 為什麼華為這麼有底氣去起訴美國政府,除了華為過硬的技術、品牌的成績之外,這更離不開一個人——任正非,華為的創始人。}
這裡,人類標註員就判斷文章對物體“華為”的情緒為正,對物體“美國政府”的情緒為負。事實上我們讀完這段文字後很可能也確實同意這一標註判斷。在這種情況下,我們就不能只對檔案級別的內容做情感分析,還需要對粒度更細的內容做分析。
對此,我們可以參考更前沿的研究論文。2016 年,清華大學朱小燕和黃民烈在 EMNLP 上發表了一篇情感粒度更細的論文 Attention-based LSTM forAspect-level Sentiment Classification。
這篇論文提出了一種基於註意力機制(Attention Mechanism)的神經網路模型,使用註意力機制註意到文字中對給出的 aspect 最重要的部分,從而更充分地考慮文字對應的 aspect 資訊,提高細粒度情感分類任務的效能。
根據這篇論文提出的改進,可以識別很多之前的模型無法識別的細粒度情感。例如,“The appetizer are ok, but the service is slow”這句話裡出現了兩個物體(或者說 aspect)。food 對應的是中性,service 對應的是負面。
最後,搜狐官方也給所有參賽者提供了比賽的 baseline 供大家參考:
https://github.com/sohucampus2019/coreEntityEmotion_baseline
朋友會在“發現-看一看”看到你“在看”的內容