100个直接上手可用的Colab Notebooks,NLP开发者的宝库没错了

本文要介绍的项目「Super Duper NLP Repo」是一个拥有超过 100 本 Colab 笔记本的数据库,主要面向 NLP 开发者,从数量和质量上来说,这份资源都非常优质。

项目数据库

先上传送门,点击、收藏一气呵成:https://notebooks.quantumstat.com/

值得注意的是,此批次的数据库里内容都于近日才添加进去,整个项目还是处于非常新的阶段。从模型类型角度来看,基本涵盖了所有 NLP 领域里较为流行的模型类型。

图注:BERT

GPT2

模型种类包含 BERT,GPT2,CNN,RNN,LSTM,Seq2Seq 以及 Seq2Seq w/Attention 等等。

从各项目目标任务角度去看,数据库包含了语音合成文本生成语音识别、情绪识别、机器翻译以及词嵌入等主流任务。

图注:机器翻译

图注:情绪识别类

以 5B GPT2 预训练中文模型为例 

数据库的末栏,会为每个项目附上 Colab 链接,以以 5B GPT2 Pretrained Chinese Model 为例 :

项目 Colab 界面

简单回顾下此项目,项目的 15 亿参数量的 GPT-2 中文预训练模型在 15GB 的纯文本上进行训练,一共迭代了 10 万步。这 15GB 的纯文本主要选自 THUCNews 与 nlp_chinese_corpus,它们会做一系列的数据清理

THUCNews:http://thuctc.thunlp.org/# 中文文本分类数据集 THUCNews 

nlp_chinese_corpus:https://github.com/brightmart/nlp_chinese_corpus

项目作者简化整理了 GPT-2 训练代码,移植了 Bert Tokenizer 以添加多语言支持。因为移植了 Bert Tokenizer,所以模型输出结果很容易与基于 BERT 的模型进行整合。

项目作者开放的预训练模型是在 TPU Pod v3-256 上复现的 15 亿参数 GPT2,这也是 GitHub 上第一个支持大规模 TPU 训练的中文 GPT-2 项目。

本项目的训练脚本:https://github.com/imcaspar/gpt2-ml/tree/master/train

工程NLPColab笔记本
相关数据
文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

数据清理技术

数据清理(data cleansing)指删除、更正数据库中错误、不完整、格式有误或多余的数据。数据清理不仅仅更正错误,同样加强来自各个单独信息系统不同数据间的一致性。专门的数据清理软件能够自动检测数据文件,更正错误数据,并用全企业一致的格式整合数据。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

语音合成技术

语音合成是通过机械的、电子的方法产生人造语音的技术。TTS技术(又称文语转换技术)隶属于语音合成,它是将计算机自己产生的、或外部输入的文字信息转变为可以听得懂的、流利的汉语口语输出的技术。

推荐文章
暂无评论
暂无评论~