Python自然語言處理分析倚天屠龍記-知識星球

音樂資源載入中…

轉載自：Python中文社群 ID:python-china

最近在瞭解到，在機器學習中，自然語言處理是較大的一個分支。存在許多挑戰。例如：如何分詞，識別物體關係，物體間關係，關係網路展示等。

我用Jieba + Word2vec + NetworkX 結合在一起，做了一次自然語言分析。語料是倚天屠龍記。之前也有很多人用金庸的武俠小說做分析和處理，希望帶來一些不同的地方。截幾張圖來看看：

所有人物的相似圖連線。

關係同上。展示形式為多中心結構

以張無忌的不同身份為中心的網路關係圖。

這次分析的不一樣之處主要是：

1、Word2Vec的相似度結果 – 作為後期社交網路權重

2、NetworkX中分析和展示

上面兩個方法結合起來，可以大幅減少日常工作中閱讀文章的時間。採用機器學習，可以從頭到尾半自動抽取文章中的物體資訊，節約大量時間和成本。在各種工作中都有利用的場景，如果感興趣的朋友，可以聯絡合作。

先來看看，用Word2Vec+NetworkX 可以發現什麼。

一、分析結果

物體的不同屬性（張無忌的總多馬甲）

張無忌，無忌，張教主，無忌哥哥，張公子。同一個張無忌有多個身份，不同身份又和不同的人聯絡，有不一樣的相似度。

先來看看圖：

無忌哥哥是過於親密的名字，一般不喊。好似和這個詞相似度高的都是比較奇怪的角色。

無忌是關係熟了以後，平輩或者長輩可以稱呼的名字。還有周姑娘，殷姑娘等

張無忌是通用的名字，人人可以稱呼和馬甲聯絡密切。

張公子是禮貌尊稱。例如，黃衫女子，汝陽王等

張教主是頭銜。既要尊重，也表示其實不太熟，有時還有些敵意。例如：朱元璋

註：

1、圖是Networkx 基於Word2vex畫出來了，上面的描述是我的人工分析。

2、趙敏不在上面的網路關係圖中。Word2Vec計算出來張無忌和趙敏相似度不太高。有些出乎我的意料。仔細回憶一下，當年看此書時，突然就發現二人在一起了，顯得比較突兀。推想起來，書中世界二人成婚了，如果變成現實世界，二人關係比較懸。

二、實現過程

主要步驟：

準備語料

倚天屠龍記小說的文字檔案

自定義分詞詞典（小說中的人物名，網上有現成的，約180個）

停用詞表

準備工具

Python Pandas, Numpy,Scipy(標準庫）

Jieba（中文分詞）

Word2vec (單詞向量化工具，可以計算單詞之間的詳細度）

Networks（網路圖工具，用於展示覆雜的網路關係

資料預處理

文字檔案轉發成utf8(pandas)

文字檔案分句，分詞（Jieba)

文字檔案分句，分詞, 分析詞性，主要是人名（Jieba)

更新自定義詞典，重新分詞（整個過程需要幾遍，直至滿意）

手工少量刪除（分詞出來的人名誤判率不高，但是還是存在一些。例如：趙敏笑道，可以被識別的一個叫趙敏笑的人。這部分工作還需要手工做。除非有更好的分詞工具，或者可以訓練的分詞工具，才能解決這一問題。

Word2Vec 訓練模型。這個模型可以計算兩個人之間的相似度

採用300個維度

過濾詞頻小於20次

滑動視窗為20

下取樣：0.001

生成物體關係矩陣。

網上沒找找到現成庫，我就自己寫了一個。

N*N 維度。 N是人名數量。

用上面WordVec的模型來，填充物體關係矩陣

NetworkX 生成網路圖

節點是人名

邊是兩個節點之間的線條。也就是兩個人之間的關係。

三、部分程式碼實現

初始化

import numpy as np

import pandas as pd

import jieba

import jieba.posseg as posseg

%matplotlib inline

資料分詞，清洗

renming_file = "yttlj_renming.csv"

jieba.load_userdict(renming_file)

stop_words_file = "stopwordshagongdakuozhan.txt"

stop_words = pd.read_csv(stop_words_file,essay-header=None,quoting=3,sep=" ")[0].values

corpus = "yttlj.txt"

yttlj = pd.read_csv(corpus,encoding="gb18030",essay-header=None,names=["sentence"])

def cut_join(s):
new_s=list(jieba.cut(s,cut_all=False)) #分詞
#print(list(new_s))
stop_words_extra =set([""])
for seg in new_s:
if len(seg)==1:
#print("aa",seg)
stop_words_extra.add(seg)
#print(stop_words_extra)
#print(len(set(stop_words)| stop_words_extra))
new_s =set(new_s) -set(stop_words)-stop_words_extra
#過濾標點符號
#過濾停用詞
result = ",".join(new_s)
return result
def extract_name(s):
new_s=posseg.cut(s) #取詞性
words=[]
flags=[]
for k,v in new_s:
if len(k)>1:
words.append(k)
flags.append(v)
full_wf["word"].extend(words)
full_wf["flag"].extend(flags)
return len(words)
def check_nshow(x):
nshow = yttlj["sentence"].str.count(x).sum()
#print(x, nshow)
return nshow
# extract name & filter times
full_wf={"word":[],"flag":[]}
possible_name = yttlj["sentence"].apply(extract_name)
#tmp_w,tmp_f
df_wf = pd.DataFrame(full_wf)
df_wf_renming = df_wf[(df_wf.flag=="nr")].drop_duplicates()
df_wf_renming.to_csv("tmp_renming.csv",index=False)
df_wf_renming = pd.read_csv("tmp_renming.csv")
df_wf_renming.head()
df_wf_renming["nshow"] = df_wf_renming.word.apply(check_nshow)
df_wf_renming[df_wf_renming.nshow>20].to_csv("tmp_filtered_renming.csv",index=False)
df_wf_renming[df_wf_renming.nshow>20].shape
#手工編輯,刪除少量非人名，分詞錯的人名
df_wf_renming=pd.read_csv("tmp_filtered_renming.csv")
my_renming = df_wf_renming.word.tolist()
external_renming = pd.read_csv(renming_file,essay-header=None)[0].tolist()
combined_renming = set(my_renming) |set(external_renming)
pd.DataFrame(list(combined_renming)).to_csv("combined_renming.csv",essay-header=None,index=False)
combined_renming_file ="combined_renming.csv"
jieba.load_userdict(combined_renming_file)
# tokening
yttlj["token"]=yttlj["sentence"].apply(cut_join)
yttlj["token"].to_csv("tmp_yttlj.csv",essay-header=False,index=False)
sentences = yttlj["token"].str.split(",").tolist()
Word2Vec 向量化訓練 # Set values for various parameters num_features = 300 # Word vector dimensionality min_word_count = 20 # Minimum word count num_workers = 4 # Number of threads to run in parallel context = 20 # Context window size downsampling = 1e-3 # Downsample setting for frequent words # Initialize and train the model (this will take some time) from gensim.models import word2vec model_file_name = 'yttlj_model.txt' #sentences = w2v.LineSentence('cut_jttlj.csv') model = word2vec.Word2Vec(sentences, workers=num_workers, size=num_features, min_count = min_word_count, window = context, sample = downsampling ) model.save(model_file_name) 建立物體關係矩陣 entity = pd.read_csv(combined_renming_file,essay-header=None,index_col=None) entity = entity.rename(columns={0:"Name"}) entity = entity.set_index(["Name"],drop=False) ER = pd.DataFrame(np.zeros((entity.shape[0],entity.shape[0]),dtype=np.float32),index=entity["Name"],columns=entity["Name"]) ER["tmp"] = entity.Name def check_nshow(x): nshow = yttlj["sentence"].str.count(x).sum() #print(x, nshow) return nshow ER["nshow"]=ER["tmp"].apply(check_nshow) ER = ER.drop(["tmp"],axis=1) count = 0 for i in entity["Name"].tolist(): count +=1 if count % round(entity.shape[0]/10) ==0: print("{0:.1f}% relationship has been checked".format(100*count/entity.shape[0])) elif count == entity.shape[0]: print("{0:.1f}% relationship has been checked".format(100*count/entity.shape[0])) for j in entity["Name"]: relation =0 try: relation = model.wv.similarity(i,j) ER.loc[i,j] = relation if i!=j: ER.loc[j,i] = relation except: relation = 0 ER.to_hdf("ER.h5","ER") NetworkX 展示人物關係圖 import networkx as nx import matplotlib.pyplot as plt import pandas as pd import numpy as np import pygraphviz from networkx.drawing.nx_agraph import graphviz_layout 本文作者王勇，python中文社群作者，雪球ID：快樂_爸，目前感興趣專案商業分析、Python、機器學習、Kaggle。17年專案管理，通訊業幹了11年專案經理管合同交付，製造業幹了6年專案管理：PMO,變革，生產轉移，清算和資產處理。MBA, PMI-PBA, PMP。《Python人工智慧和全棧開發》2018年07月23日即將在北京開課，120天衝擊Python年薪30萬，改變速約~~~~ *宣告：推送內容及圖片來源於網路，部分內容會有所改動，版權歸原作者所有，如來源資訊有誤或侵犯權益，請聯絡我們刪除或授權事宜。 - END - 更多Python好文請點選【閱讀原文】哦 ↓↓↓ 贊賞長按二維碼向我轉賬受蘋果公司新規定影響，微信 iOS 版的贊賞功能被關閉，可透過二維碼轉賬支援公眾號。閱讀原文即將開啟""小程式取消開啟

Python自然語言處理分析倚天屠龍記

相關推薦

熱門標籤

熱門文章

分享創造快樂