關鍵詞:貝葉斯推斷 文字分析 詞性標註 網路理論
作者:神經小姐姐,本文授權轉載自公眾號超神經HyperAI(ID:HyperAI),「連結人工智慧新場景」
這個世界上只有兩種人,看「權遊」(權利的遊戲)的,和不看「權遊」的。
你們心心念的權遊終於迎來了最終季,狼家史塔克的家訓「Winter is coming」終終終終終於是應驗了,人類與異鬼的戰爭一觸即發。各個主要角色的生死存亡你猜得到嗎?
▲這個深刻詮釋「凡人皆有一死」的熱劇,撲朔迷離的劇情讓觀眾對終局望眼欲穿
難道只能在一集集看完之後,才能知道你們牽掛的二丫會不會倖存,色後又會不會被二丫手刃?
面對這份煎熬,總有人按捺不住。比如,熱愛程式碼的程式員們,就用演演算法分析權遊裡的故事,預測了角色的生存機率,以及誰最有可能登上鐵王座。
有趣的是,不同的演演算法和團隊,預測的結果大相徑庭。比如慕尼黑工業大學(TUM)團隊的演演算法,預測最終龍媽登上了鐵王座;而另一種演演算法下,龍媽沒能活過寒冬。
另外,還有一種神奇的「演演算法」是:Men all die.
所以,哪家預測的結果準確?各家都有各家的依據,看看他們都怎麼做的。
01 機器學習預測龍媽要活到最後
TUM 的學生在電腦科學研討會上做了一個有趣大膽的嘗試:用資料科學和機器學習的方法,去預測權遊中角色最後的存活機會。在「權力的遊戲」第八季上映之前,演演算法就預測出各個角色的命運。
▲左:生存率排行榜,右:死亡率排行榜(圖片來源:https://got.show/)
完整的權遊人物清單以及詳細預測結果可線上獲取:
https://got.show
這份結論中,龍媽存活的機率最高( 99% ),她的國王之手小惡魔也有 97% 的存活率。難道是龍媽最後統領了各大家族?而狡猾又善於自保的波隆以 93.5% 位居死亡順序的首位。
這個結果從哪兒得來?
TUM 團隊的分析資料是從《冰與火之歌》的書中,權遊的臺詞裡,以及粉絲圈在維基百科上的內容蒐集而來。用於預測的資訊包括:角色所屬的家族,是否已婚,以及他們的盟友等情況。
他們提取了數百個角色的特徵資料集,梳理了故事中角色的資訊。除了諸如性別和地位等資料外,還考慮了元資料資訊:比如某人是主要角色還是次要角色,以及他們在維基百科等渠道中被取用的頻率。
透過這些資料,利用演演算法分析,揭示出了關於權遊中死亡率的一些趨勢,例如男性比女性更危險(男性死亡率 22%, 而女性為 11% )。
在預測趨勢的同時,為了對每個角色的命運進行預測,團隊使用了兩個單獨的模型:第一種是貝葉斯推斷方法,使用 pymc3 封裝的 MCMC 方法來訓練貝葉斯生存分析模型;第二個涉及機器學習和神經網路,在 Python 的 Keras 框架下進行。
▲鐵王座還是死亡,到底誰說了算
他們的工作或許會有些效果。早在 2016 年,在第 6 季播出之前,TUM 同一課程的學生就建立了一個演演算法,準確預測了囧諾的複活。
02 利用文字分析:龍媽要狗帶?
你要相信,有同樣好奇心的人,肯定不止一位。
另一位資料科學家 Peter Vesterberg 透過對原著小說的文字分析,去預測最終季的劇情走向。
Peter 認為劇情的走向是人物間的關係所支撐的,透過分析了《冰與火之歌》已經出版的五本書,使用網路理論計算出角色間的相互關係,用視覺化的方式呈現出來,綜合人物的重要性判斷最後的存活機率。
他用一個點來代表人物,根據冰火故事中的文字,利用詞性標註,相似度度量等方法,定義了角色之間的「接近」程度,越接近和越頻繁地出現兩個名字,他們的聯絡就越多。
判斷一個角色與其他角色的關聯性的方法,主要用了四個關鍵概念:
-
度中心性——與該節點直接連線的節點佔節點總數的比例;
-
接近中心性——對於一個結點而言,距離其它結點越近,那麼它的中心度越高 ;
-
中介中心性——量化該節點充當其他兩個節點之間最短路徑的橋梁的次數 ;
-
特徵向量中心性——一個節點的重要性既取決於其相鄰節點的數量,也取決於其相鄰節點的重要性。
透過這些概念的分析,得到關係值的「權重」數字。最終得到一份關於人物關係的圖譜,線條的粗細表示了人物聯絡的緊密程度,最後的結點大小代表了角色的重要性。這份重要性指標也顯示了會被作者「除去」的可能。
具體的指標排名如下:
▲四個分析指標的具體排名數值,囧諾( Jon )都是領跑
在這樣的分析下,囧諾毫無疑問是最重要的角色,難道這個生於龍家,長於狼家的疑似 RMB 玩家,最終會登上鐵王座?重要程度緊隨其後的,是智力擔當小惡魔和弒君者詹姆。
從網路理論的角度來看,龍媽丹妮莉絲似乎是前期撒幣太多,後期估計是金幣不夠,只是處在關係網的邊緣,看來大機率是要涼了。
03 預測不只是為了娛樂,更是擁有現實意義
對於結果迥異的不同演演算法,到底哪個更勝一籌,我們不得而知,也許只有在大結局到來時候,才能知曉。但他們使用的方法,都不只是鬧著玩,而是擁有實際的利用價值。
TUM 開發的生存機率演演算法,來自於一個嚴肅的學習專案。他們設立這項課程的主要的目的,是幫助學生將學習如何設計,開發和部署智慧計算機系統。
該專案的首席導師 Guy Yachdav 博士說:「雖然預測權力遊戲人物生存機會,依賴於從幻想世界中獲取的資料,但在現實世界中,使用完全相同的人工智慧技術,也會對我們的日常生活產生重大影響。」
▲Guy Yachdav 博士在 TED 演講中介紹預測演演算法能夠解決現實世界中的問題
負責 TUM 資訊學系生物資訊學主任的 Burkhard Rost 教授說:「激情與教學的結合是創造新工具的絕佳方式。在 TUM 的課程中,我們找到了這種有趣的方式,去教學生如何使用這項技術。」
目前,在現實世界中,類似的演演算法可用於醫學和金融,例如使用綜合資訊分析預測健康情況 。這種技術類似於分析研究治療方法或併發症對癌症患者的影響。
而對於資料學家 Peter 所做的事情,除了分析角色的存活,還從數字的角度去分析了「冰與火之歌」小說的各種書寫規律,用資料去解析一本小說的元素。
也許,掌握這一樣式之後,未來小說家和編劇就可以使用人工智慧快速地生成新內容,這樣就不會眼睜睜看著馬丁大大一直補不上的坑了。
04 想預測「復聯」最後活下來的英雄嗎?
熱鬧的 4 月,似乎又是一個落幕的季節,除了權遊最終季,復仇者聯盟也要在下週三迎來大結局,想必很多人還沒從滅霸那個響指中緩過來,那個非要安靜看落日的狠人,就那麼隨機毀滅了一半的宇宙。
這個任性的死亡速度,估計 AI 也無法預測出來了。但是,如果你還是好奇心太重,想自己動手試一試的話,那麼 TUM 團隊的專案開源地址在此:
https://api.got.show/doc/
但其實,不需要 AI 預測,復聯 4 應該也是一個最優結局,畢竟奇異博士類似窮舉法,或者說試錯法之類的操作,把希望留給復聯世界:他用時間寶石嘗試了 14000605 種可能後,選擇了唯一會勝利的那條。
奇異博士的這種精神,用來寫程式碼的話估計也是極好的。
05 百科知識
-
詞性標註 Part-of-Speech Tagging
詞性標註(POS tagging ) 是將對句子中的詞語進行分類標註的過程。是依據字詞在句法結構或語言形態上承擔的成分,透過詞性分類賦予每個詞的詞性標記的過程。
也就是要確定句子中每個詞是名詞、動詞、形容詞或其他詞性的過程,又稱詞類標註或者簡稱標註。
詞性標註是自然語言處理中的一項基礎任務,在語音識別、資訊檢索及自然語言處理的許多領域都有應用。
-
詞性標註實現的方法
可以分為基於規則和基於統計的方法,主要有:
(1)基於最大熵的詞性標註
(2)基於統計最大機率輸出詞性
(3)基於 HMM 的詞性標註
-
詞性標註的應用
(1)句法分析預處理
(2)詞彙獲取預處理
(3)資訊抽取預處理
朋友會在“發現-看一看”看到你“在看”的內容