NLP技术路线详解:这是从数学到算法的艺术

自然语言处理路线图详解,从数学基础、语言基础到模型和算法,这是你该了解的知识领域。

自然语言处理很多时候都是一门综合性的学问,它远远不止机器学习算法。相比图像或语音,文本的变化更加复杂,例如从预处理来看,NLP 就要求我们根据对数据的理解定制一种流程。而且相比图像等更偏向感知的智能,自然语言包含更高一级的智能能力,不论是承载思想、情感还是推理。

那么我们该怎样学习自然语言处理,有什么比较好的路线吗?通常而言,在数学和机器学习的基础上,我们还需要了解自然语言的规则与现象,这样才能进一步探讨该怎样处理自然语言。

本文介绍刚刚发布的一个开源项目,韩国庆熙大学本科生 Tae-Hwan Jung 总结了一套 NLP 的技术路线图。值得注意的是,Tae-Hwan Jung 此前已经开源了很多优秀的项目,包括 4.3k+ star 量的 NLP 教程。

  • 项目地址:https://github.com/graykode/nlp-roadmap

Tae-Hwan Jung 表示,本项目面向对 NLP 感兴趣的学生,该路线图提供了学习 NLP 的思维导图及关键词信息,它覆盖了从概率/统计到 SOTA NLP 模型的素材。

如上所示为 NLP 的技术基石,最基础的当然还是数学和算法方面的知识,此外语言学和机器学习知识也必不可少。再往上主要是文本挖掘与 NLP,在作者看来,前者更偏向于常规的算法与浅层机器学习模型,后者更偏向于深度学习模型。

四大技术线路图

如下从概率和统计到深度学习方法展示了四大技术路线图,它们从基石到高层展示了完整的知识领域。

概率与统计

机器学习

文本挖掘

自然语言处理

注意:

  • 关键词之间的关系可能解释得比较模糊,因为是以语义思维导图的方式表示的。

    读者们只需要看方框内的关键词就行,把它们当作必学部分;

  • 在一张图中容纳如此多的关键词和知识点,非常的难,因此,请切记该路线图只是一种思路或者建议;

入门知识可视化NLP
9
相关数据
文本挖掘技术

文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程,产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。

语言学技术

每种人类语言都是知识和能力的复合体,语言的使用者能够相互交流,表达想法,假设,情感,欲望以及所有其他需要表达的事物。语言学是对这些知识体系各方面的研究:如何构建这样的知识体系,如何获取,如何在消息的制作和理解中使用它,它是如何随时间变化的?语言学家因此关注语言本质的一些特殊问题。比如: 所有人类语言都有哪些共同属性?语言如何不同,系统的差异程度如何,我们能否在差异中找到模式?孩子如何在短时间内获得如此完整的语言知识?语言随时间变化的方式有哪些,语言变化的局限性是什么?当我们产生和理解语言时,认知过程的本质是什么?语言学研究的就是这些最本质的问题。

推荐文章
暂无评论
暂无评论~