Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部编译

佐治亚理工学院硕士建议:2022年你应该掌握这些机器学习算法

2022 年你应该知道的所有机器学习算法。

想要成为一名合格的 AI 工程师,并不是一件简单的事情,需要掌握各种机器学习算法。对于小白来说,入行 AI 还是比较困难的。

为了让初学者更好的学习 AI,网络上出现了各种各样的学习资料,也不乏很多 AI 大牛提供免费的授课视频提供帮助。

近日,来自佐治亚理工学院的理学硕士 Terence Shin 在博客发布平台 Medium 撰文《2022 年你应该知道的所有机器学习算法》。文中涵盖了 5 类最重要的机器学习算法:集成学习算法;可解释算法;聚类算法;降维算法;相似性算法。
目前,Terence Shin 在 Medium 显示为 Top 1000 作者,有 62K 关注者,目前这篇文章已经有 1.4K 点赞。
2022 年,你需要掌握的机器学习算法

集成学习算法

为了理解什么是集成学习算法,你首先需要知道什么是集成学习。简单来讲,集成学习是一种同时使用多个模型以获得比单个模型性能更好的方法。

更形象的解释,我们以一个学生和一个班级的学生为例:
想象一下,一个学生解决一个数学问题 VS 一个班级学生解决相同的问题。作为班级,所有学生可以相互检查彼此的答案,并一致找出正确答案解决问题。另一方面,作为学生的个人,如果他 / 她的答案是错误的,那么没有其他人可以验证他 / 她的答案正确与否。

因此,由学生组成的班级类似集成学习算法,其中几个较小的算法协同工作以制定最终响应。

关于集成学习的更多信息请参考:https://towardsdatascience.com/ensemble-learning-bagging-and-boosting-explained-in-3-minutes-2e6d2240ae21

集成学习算法对于回归和分类问题监督学习问题最有用。由于其固有的性质,它优于传统的朴素贝叶斯、支持向量机、决策树等机器学习算法。集成学习的代表方法有:Random Forests、XGBoost、LightGBM、CatBoost.

可解释算法

可解释算法帮助我们识别和理解与结果有显著关系的变量。因此,与其创建一个模型来预测响应变量的值,我们可以创建可解释模型来理解模型中变量之间的关系。
当你想要了解模型为什么做出这个决策、或者你想要理解两个或多个变量是如何相互关联的,可解释模型能够提供帮助。在实践中,解释机器学习模型能够实现的性能和机器学习模型本身一样重要。如果你不能解释一个模型是如何工作的,那么将不会有人愿意使用它。

目前基于假设检验的传统可解释模型主要包括:线性回归、逻辑回归;此外,可解释模型还包括 SHAP 和 LIME 这两种流行技术,它们被用来解释机器学习模型。

聚类算法

聚类是按照某个特定标准 (如距离) 把一个数据集分割成不同的类或簇,使得同一个簇内的数据对象的相似性尽可能大,同时不在同一个簇中的数据对象的差异性也尽可能地大。也即聚类后同一类的数据尽可能聚集到一起,不同类数据尽量分离。
聚类的一般过程包括数据准备、特征选择、特征提取、聚类聚类结果评估。

聚类算法可用于进行聚类分析,它是一项无监督学习任务,可以将数据分组到聚类中。与目标变量已知的监督学习不同,聚类分析中没有目标变量。

聚类能够发现数据中的自然模式和趋势。k-means 聚类和层次聚类是最常见的两种聚类算法。

降维算法

数据降维算法是机器学习算法中的大家族,它的目标是将向量投影到低维空间,以达到可视化、分类等目的。
降维技术在很多情况下都很有用:在数据集中有数百甚至数千个特征并且用户需要选择少数特征时,需要用到降维;当 ML 模型过度拟合数据也需要降维,这意味着用户需要减少输入特征的数量。

目前已经存在大量的数据降维算法,可以从不同的维度进行分类。按照是否有使用样本的标签值,可以将降维算法分为有监督降维和无监督降维;按照降维算法使用的映射函数,可以将算法分为线性降维与非线性降维。其中,主成分分析 PCA、线性判别分析 LDA 为线性降维。

相似性算法
机器学习中,我们经常需要知道个体间差异的大小,进而评价个体的相似性和类别。相似性算法是计算节点、数据点、文本对相似性的算法,如欧几里得距离,也有计算文本相似度的相似度算法,如 Levenshtein 算法。

相似性算法主要包括:K 近邻算法、欧几里得距离、余弦相似度、奇异值分解等。其中,K 近邻算法,即是给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的 K 个实例,这 K 个实例的多数属于某个类,就把该输入实例分类到这个类中。欧几里得距离是欧几里得空间中两点间普通(即直线)距离。余弦相似度是通过计算两个向量的夹角余弦值来评估他们的相似度。

原文链接:
https://towardsdatascience.com/all-machine-learning-algorithms-you-should-know-in-2022-db5b4ccdf32f
入门ML算法推荐硕士建议佐治亚理工学院
2
相关数据
逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

集成学习技术

集成学习是指使用多种兼容的学习算法/模型来执行单个任务的技术,目的是为了得到更佳的预测表现。集成学习的主要方法可归类为三大类: 堆叠(Stacking)、提升(Boosting) 和 装袋(Bagging/bootstrapaggregating)。其中最流行的方法包括随机森林、梯度提升、AdaBoost、梯度提升决策树(GBDT)和XGBoost。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

聚类分析技术

聚类分析(CA)是一种典型的无监督学习方法,这种方法是根据对象的特点将它们分成不同的组。K-均值是应用最广泛的聚类方法,其它方法还包括 k-Medoids、分层聚类和 DBSCAN。期望最大化法(EM)也是聚类分析的一种解决方案。聚类分析在数据挖掘、市场调研、异常值检测等许多领域都有应用。另外,降维技术也是一类类似于聚类分析的无监督学习方法,其典型的代表有主成分分析(PCA)、线性判别分析和 Isomap。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

推荐文章
暂无评论
暂无评论~