专知来源林亦霖校对王菁 编辑

中文公开聊天语料库及使用方法(附链接)

该Github库是对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。

语料内容

该库搜集了包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料小黄鸡语料共8个公开闲聊常用语料和短信,并对其进行了统一化规整和处理,达到直接可以粗略使用的目的。

使用方法

下载语料

网盘链接:

https://pan.baidu.com/s/1szmNZQrwh9y994uO8DFL_A 提取码:f2ex

将解压后的raw_chat_corpus文件夹放到当前目录下 目录结构为:

raw_chat_corpus -- language -- process_pipelines -- raw_chat_corpus ---- chatterbot-1k ---- douban-multiturn-100w ---- .... -- main.py -- ...

执行命令即可

python main.py

生成结果

每个来源的语料分别生成一个独立的*.tsv文件,都放在新生成的clean_chat_corpus文件夹下。

生成结果格式为 tsv格式,每行是一个样本,先是query,再是answer

query \t answer

Github地址:

https://github.com/codemayq

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

工程语料库GitHub
3
暂无评论
暂无评论~