机器之心编辑部报道

不要上手就学深度学习!超详细的人工智能专家路线图,GitHub数天获2.1k星

这个学习路线图几乎涵盖了人工智能领域的所有内容,点点鼠标,就能链接所需知识。



想从事人工智能领域的研究,盲目地在网上购买了一本又一本的参考资料,学习视频刷了一遍又一遍…… 反过头来看,这些方法可能作用并不是很大,却消耗了大量的时间和金钱。

这时,一种提纲式的学习途径就显得尤为重要了。如果你想成为数据科学家、机器学习或者 AI 专家,而又苦于找不到合适的学习方法,本文将提供一组思路清晰、简单易懂的人工智能专家路线图。

这是一家德国软件公司 AMAI GmbH 近期发布的 GitHub 项目——AI 专家路线图(AI-Expert-Roadmap)。该路线图几乎涵盖了 AI 领域所有的知识点,并且每个知识点都有详细的文档。有了这个路线图的指导,或许能帮助你快速入门乃至成为 AI 领域的佼佼者。该项目上线短短几天,已经收获了 2.1k 星。


项目地址:https://github.com/AMAI-GmbH/AI-Expert-Roadmap

亮点多多的 AI 专家路线图

对学习者非常友好的是,这份 AI 专家路线图是一个互动版本。每个子模块所列内容都可以链接到指定网站,学习者可以找到词条的维基百科或其他来源的释义和拓展内容。此外,如果有新的研究出现时,该路线图会随时更新。

该路线图旨在给学习者提供关于人工智能的整体概念,并在学习感到困惑时给予指导,而没有鼓励学习者一味地选择最先进、最热门的技术。这是因为在科研中,每个人都需要了解哪种工具最适合自己。换言之,最先进、最热门的技术不一定是最适合的。

就这份 AI 专家路线图而言,开发者列出了任何学习路径所必不可少的一些要素,如论文和代码、版本控制、语义化版本控制和更新日志。但就具体选择上,开发者认为在学习 AI 时不应直接过渡到当前热门的技术——深度学习,而应步步为营,并提供了 3 条可供选择的学习路径:数据科学家→机器学习深度学习…;数据科学家→数据工程师…;大数据工程师→…


循序渐进才是「王道」。

AI 专家路线图概览

这部分内容简要总结了 AI 专家路线图,并从以下几个方面着手讲解:数据科学家、机器学习深度学习、数据工程师以及大数据工程师。这 5 部分内容都有详细的学习路线图,点击图表任意模块,都会链接到对应的内容。

数据科学家路线图

数据科学家路线图中,我们可以了解到进行 AI 研究所需要的基础:矩阵和线性代数数据库、表格数据、数据格式(JSON、XML、CSV)、正则表达式等等。

在统计学方面,该路线图涵盖了概率论、概率分布、估计、假设检验置信区间大数定律蒙特卡罗方法等等。

在 Python 编程方面,该路线图展示了 Python 基础、比较重要的 Python 库以及所需运行环境等。

在数据来源方面,学习者点击「Awesome Public Datasets」图标,就可以链接到整理好的公共数据集等。接着过渡到可视化和探索性数据分析 / 转换 / 整理相关内容,最后进入到机器学习和数据工程师两个不同的方向。



机器学习路线图

机器学习路线图主要分为 4 大部分:基础概念、算法、用例以及所用工具。其中基础概念部分主要包括机器学习中常用的概念、梯度下降、训练集、测试集、验证集等基础概念;算法部分列举了 4 类算法:监督学习、无监督学习集成学习强化学习;用例部分列举了情感分析、协同过滤、标注和预测;所用工具部分则介绍了 scikit-learn、spacy 等工具。每部分内容都有对应的详细文档。



深度学习路线图

机器学习之后进入到了深度学习,这是第 1 条可选择学习路径的最后部分。深度学习路线图由 4 大部分组成:论文、神经网络、网络架构以及所用工具。论文部分提供了深度学习论文阅读路线图以及 SOTA 论文;神经网络部分提供了一篇详细介绍如何理解神经网络的博客文章;网络架构部分包括感知器、自动编码器、CNN、RNN;所用工具部分主要介绍了 TensorFlow 、PyTorch 等。最后给出建议:保持探索、与时俱进。



数据工程师路线图

数据科学家路线图之后可以直接进入到数据工程师路线图,这是第 2 条可选择的学习路径。该路线图主要介绍了数据格式、数据发现、数据集成数据融合、数据调研、数据湖和数据仓库以及如何使用 ETL 等多方面内容。


大数据工程师路线图

大数据工程师路线图是第 3 条可选择的学习路径,主要分为 3 部分内容:大数据架构、遵循的原则以及所用工具。大数据架构部分主要讲述了大数据分析架构模式和最佳实践;遵循的原则包括数据库管理系统中的数据复制,以及 Hadoop 中 NameNode 和 DataNode 的区别等;所用工具则介绍了 Hadoop、Spark 等。


参考链接:https://i.am.ai/roadmap/#data-science-roadmap
理论人工智能
6
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动编码器技术

自动编码器是用于无监督学习高效编码的人工神经网络。 自动编码器的目的是学习一组数据的表示(编码),通常用于降维。 最近,自动编码器已经越来越广泛地用于生成模型的训练。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

协同过滤技术

协同过滤(英语:Collaborative Filtering),简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息,回应不一定局限于特别感兴趣的,特别不感兴趣信息的纪录也相当重要。协同过滤又可分为评比(rating)或者群体过滤(social filtering)。其后成为电子商务当中很重要的一环,即根据某顾客以往的购买行为以及从具有相似购买行为的顾客群的购买行为去推荐这个顾客其“可能喜欢的品项”,也就是借由社区的喜好提供个人化的信息、商品等的推荐服务。除了推荐之外,近年来也发展出数学运算让系统自动计算喜好的强弱进而去芜存菁使得过滤的内容更有依据,也许不是百分之百完全准确,但由于加入了强弱的评比让这个概念的应用更为广泛,除了电子商务之外尚有信息检索领域、网络个人影音柜、个人书架等的应用等。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

验证集技术

验证数据集是用于调整分类器超参数(即模型结构)的一组数据集,它有时也被称为开发集(dev set)。

大数定律技术

在数学与统计学中,大数定律又称大数法则、大数律,是描述相当多次数重复实验的结果的定律。根据这个定律知道,样本数量越多,则其算术平均值就越趋近期望值。大数定律很重要,因为它“保证”了一些随机事件的均值的长期稳定性。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

假设检验技术

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。

梯度下降技术

梯度下降是用于查找函数最小值的一阶迭代优化算法。 要使用梯度下降找到函数的局部最小值,可以采用与当前点的函数梯度(或近似梯度)的负值成比例的步骤。 如果采取的步骤与梯度的正值成比例,则接近该函数的局部最大值,被称为梯度上升。

置信区间技术

在统计学中,一个概率样本的置信区间(Confidence interval),是对这个样本的某个总体参数的区间估计(Interval Estimation)。置信区间展现的是,这个总体参数的真实值有一定概率落在与该测量结果有关的某对应区间。置信区间给出的是,声称总体参数的真实值在测量值的区间所具有的可信程度,即前面所要求的“一定概率”。这个概率被称为置信水平。举例来说,如果在一次大选中某人的支持率为55%,而置信水平0.95上的置信区间是(50%, 60%),那么他的真实支持率落在50%和60%之区间的机率为95%,因此他的真实支持率不足50%的可能性小于2.5%(假设分布是对称的)。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

蒙特卡罗方法技术

蒙特卡罗方法,也称统计模拟方法,是1940年代中期由于科学技术的发展和电子计算机的发明,而提出的一种以概率统计理论为指导的数值计算方法。是指使用随机数来解决很多计算问题的方法。

数据仓库技术

线性代数技术

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

数据集成技术

数据集成是把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。在企业数据集成领域,已经有了很多成熟的框架可以利用。目前通常采用联邦式、基于中间件模型和数据仓库等方法来构造集成的系统,这些技术在不同的着重点和应用上解决数据共享和为企业提供决策支持。

感知器技术

感知器是Frank Rosenblatt在1957年就职于Cornell航空实验室时所发明的一种人工神经网络。它可以被视为一种最简单形式的前馈神经网络,是一种二元线性分类器。 Frank Rosenblatt给出了相应的感知机学习算法,常用的有感知机学习、最小二乘法和梯度下降法。

数据融合技术

数据融合技术将来自多个传感器(信息源)的数据和相关数据的信息相结合,以实现比单独使用单个传感器(信息源)所能实现的更高的准确性和更具体的推论。

推荐文章
暂无评论
暂无评论~