从字母而不是单词教授人工智能系统学习语言
近日,Facebook 提出一种自然语言处理的新方法,通过使用未分段的文本输入对单个字母之间的交互而不是整个单词进行训练来教授神经网络语言基础知识。Facebook 技术博文介绍道:形成 NLP 系统基础的大多数递归神经网络(RNN)在已知单词的词汇表上进行训练。为了以更接近人类学习语言基础的方式训练 RNN,我们从训练数据集中删除了单词边界,并在角色(而不是单词)级别训练网络。这种无人监督的字符级语言建模任务的多语言研究使用了数百万字的英语,德语和意大利语的数据集。它表明,这些「近白板」的 RNN 开发了一系列令人印象深刻的语言知识,包括将字符组分成单词,区分名词和动词,甚至引入简单形式的单词意义。