分享一個包含千萬級聊天語料的資源。地址:https://github.com/codemayq/chaotbot_corpus_Chinese
該庫是對目前市面上已有的開源中文聊天語料的蒐集和系統化整理工作
該庫蒐集了包含
· chatterbot
· 豆瓣多輪
· PTT八卦語料
· 青雲語料
· 電視劇對白語料
· 貼吧論壇回帖語料
· 微博語料
· 小黃雞語料
共8個公開閑聊常用語料和簡訊,白鷺時代問答等語料。
並對8個常見語料的資料進行了統一化規整和處理,達到直接可以粗略使用的目的。
使用該專案,即可對所有的聊天語料進行一次性的處理和統一下載,不需要到處自己去搜集下載和分別處理各種不同的格式。
註意
以下所有語料都已經統一下載好,存在 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼:f2ex 中。給出的語料原連結是為了說明該語料的原始出處是在哪裡
環境
python3
處理過程
將各個來源的語料按照其原格式進行提取,提取後進行繁體字轉換,然後統一變成一輪一輪的對話。
資料來源及說明
使用方法
下載語料 https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取碼:f2ex
將解壓後的raw_chat_corpus檔案夾放到當前目錄下 目錄結構為
raw_chat_corpus
— language
— process_pipelines
— raw_chat_corpus
—- chatterbot-1k
—- douban-multiturn-100w
—- ….
— main.py
— …
執行命令即可
python main.py
或者
python3 main.py
生成結果
每個來源的語料分別生成一個獨立的*.tsv檔案,都放在新生成的clean_chat_corpus檔案夾下。
生成結果格式為 tsv格式,每行是一個樣本,先是query,再是answer
query \t answer
結果的使用
這個就根據每個人不同的情況自主使用即可。