Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

从数学推导开始,7万字一定带你学会支持向量机(免费PDF下载)

SVM(Support Vector Machine,支持向量机)是一个非常经典且高效的分类模型。

机器学习领域,有两大类方法既理论优美又能在实践中取得很好的效果,其中一类是 SVM 及其衍生的核方法和统计学习理论;另一类是 AdaBoost 及其衍生的 Boosting 方法,例如在 Kaggle 竞赛中十分流行的 XGBoost 和 LightGBM 即属于 Boosting 方法。目前十分热门的深度学习方法虽然在实践中能取得十分突出的效果,但是理论支持不够完善。

深度学习复兴之前,SVM 是最常被使用的模型之一。即使现在深度学习如火如荼,在一些领域 SVM 仍有其用武之地;此外,理解 SVM 对理解机器学习领域的关键概念和重要思想很有帮助;最后,因为 SVM 的影响力,其常常作为面试问题用于考察面试者的基本功。因此,SVM 是机器学习及相关领域初学者必须掌握的算法之一。

电子书概览

但是,SVM 涉及许多数学推导,有些还比较复杂,并且需要比较强的凸优化基础知识,这使得一些初学者虽花大量时间和精力研读,但仍一头雾水,最终望而却步,从入门到放弃。本书《手把手带你学懂 SVM》旨在从零推导 SVM,涵盖从 SVM 的思想、到形式化、再简化、最后实现的完整过程
  • 电子书下载地址:https://pan.baidu.com/link/zhihu/7QhkzYuRhtikYhNkkFdf1qRHewTqJVRwZBVW== 
  • 知乎链接:https://zhuanlan.zhihu.com/p/480302399

例如,SVM 涉及许多概念,比如间隔(又分为硬间隔和软间隔)、支持向量、基本型、对偶型、高斯核函数等,本书一方面会从数学角度详细定义和解释每个概念,另一方面会通过通俗的例子直观说明这些概念的含义,以帮助读者理解。

举个例子,假设读者要学习《高等数学》这门课,用机器学习的语言来进行描述,读者平时在上课的过程就是训练读者成为 “《高等数学》学习模型” 的过程,平时进行的模拟考试或做的练习就是训练样本,最终的期末考试就是训练样本之外的测试样本,用来测试读者对《高等数学》知识的掌握情况,即检验读者对运用《高等数学》知识解题的泛化能力

如果读者在模拟考试或练习(即训练样本)上只能达到 60 分或只比 60 分多几分,即十分接近及格和不及格的分类边界,虽然在模拟考试或练习中及格了(即训练样本预测正确),但是如果期末考试(即测试样本)和模拟考试或练习(即训练样本)相比变了些题型(进行了一些局部扰动),那么读者很有可能在期末考试上不及格(即测试样本预测错误)。

不同的同学有不同的学习策略(即不同的学习模型有不同的归纳偏好),SVM 的归纳偏好类似于 “学霸” 的学习策略,“学霸” 不满足于模型考试或练习只及格就可以,而是不仅是要在模型考试或练习中及格(即训练样本预测正确)、而且进一步要使得模型考试或练习的成绩尽量比 60 分高,比如达到 70 分或 80 分以上(即训练样本远离划分超平面),那么期末考试及格(即测试样本预测正确)的概率会很大。

从上面的例子可以了解到,训练样本是平时做的模拟考试或练习,测试样本是期末考试。基本型就像是闭卷考试,在期末考试时(即在预测阶段),你平时做的模拟考试或练习都不能带(即不依赖训练集 D),只能靠你聪明的头脑进行答题(即只能使用训练得到的参数 (w⋆,b⋆) 进行预测);而对偶型就像是开卷考试,在期末考试时(即在预测阶段),你可以带平时做过的模拟考试或练习(即依赖训练集 D),答题时不仅可以靠你聪明的头脑,还可以查阅平时做过的模拟考试或练习(即同时使用训练得到的参数和训练集 D 进行预测)。

基本型属于参数模型、而对偶型属于非参数模型。可以看出,参数模型的特点在于预测过程简单、预测耗时短(即闭卷考试时会就是会、不会就是不会,花再多时间也没啥用);而参数模型的特点在于模型表示能力通常更强(读者应该有体会,通常开卷考试的成绩更高),但预测过程比较复杂、预测耗时长,预测耗时通常和训练集大小 m 成正比(即答题时需要将带的模拟考试或练习翻找一遍)。

更进一步,训练样本是平时做的模拟考试或练习,硬间隔要求你对平时做的所有的模拟考试或练习分数都要比 60 分高很多,而软间隔允许你有几次失误的机会,即允许有少量模拟考试或练习分数接近或低于 60 分。软间隔和硬间隔相比会放松一些要求,这样更加现实,有时候模拟考试或练习中会存在偏题怪题(即噪声样本),如果一味追求要所有的模拟考试或练习都做的很好(即硬间隔),那么会花大量的时间纠结偏题怪题(即拟合噪声样本),不见得期末考试成绩会好(即容易出现过拟合)。

训练样本是平时做的模型考试或练习,测试样本是期末考试,支持向量是错题集,基本型是闭卷考试,对偶型是开卷考试。那么软间隔高斯核 SVM 的对偶型告诉你,在开卷考试时不需要带所有做过的模拟考试或练习(即不需要全部训练集 D),只需要带错题集(即只需要支持向量),在期末考试答题时采用的策略是(即预测策略是),拿到一道题(即对于一个待预测的样本),将该题和错题集中收录的题一一比对一遍(即基于核函数对支持向量进行相似度计算),参考错题集中的解法(即参考支持向量的标记),相似度高的题解法就多参考参考、相似度低的题解法就少参考参考(即基于核函数得出的相似度进行加权投票),不过参考不是照抄,还需要你聪明的大脑进行加工和整合(即基于   进行加权投票)得到最终解法(即最终预测结果)。其实回顾你以前参加开卷考试的经历,使用的基本上就是这个答题策略,所以软间隔高斯核 SVM 的对偶型的表示能力十分强大。

下表对 SVM 中涉及的一些概念用学习《高等数学》课程的例子进行类比,类比不见得严谨,但是有助于理解概念。我们学习机器学习还有一个意义是促进人类的学习,SVM 中的很多思想和策略对人类学习很有启发价值。
本书有以下特点:

  • 数学推导详细。对于一些数学性比较强的资料,读者有时会卡在其中的一两个关键步骤,无法理解其中的推导过程,导致无法学习后续的内容。本书会详细推导所有涉及的公式,数学基础比较好的读者可以快速浏览推导过程作为回忆和巩固;而对于数学基础有些薄弱的读者,详细的推导过程将使读者不会 “掉队”;
  • 补充背景知识。SVM 是凸优化领域的经典算法,需要读者对凸优化的背景知识有一定的了解。但是大部分读者可能并不是数学或优化背景出身,为了学习 SVM 先要掌握内容宏大的凸优化知识会是比较重的负担。为了减轻读者的负担并能使尽可能多的读者从中收益,本书不要求读者有凸优化背景知识,读者只需要有基础的微积分线性代数背景即可。文本对 SVM 中涉及的背景知识会进行补充,力图使本书内容是自足的,即争取做到 “学懂 SVM 只看本书就够了”;
  • 概念图文结合。SVM 的另一个难点是涉及许多概念,有些还比较抽象。因此,本书配备了许多插图,用于辅助读者学习。读者如果能自动地做到将各个术语和概念对应到图中,那基本就可以达到对 SVM 融会贯通的程度;
  • 包含面试问题。本书内容涵盖了常见的对 SVM 的面试考察问题,因此也可以作为快速回顾和复习 SVM 的参考资料;
  • 穿插趣味示例。本书如果通篇都是对 SVM 的数学推导不免有些抽象和乏味,因此会多次用人类学习《高等数学》知识这一例子类比 SVM 中的重要概念和思想。类比不见得严谨,但对理解 SVM 具有帮助意义。

SVM 中涉及的关键内容可以用下图进行概括,本书将从最基础的部分进行,逐步深入,每一步都尽量提供详细的推导过程,使读者能跟上本书的节奏
作者自认才疏学浅,仅略懂皮毛,更兼时间和精力有限,文中错谬之处在所难免,敬请读者批评指正,本书勘误请发送邮件至:zhangh0214@gmail.com。

作者介绍
张皓,毕业于南京大学计算机系周志华教授领导的机器学习数据挖掘研究所(LAMDA),导师为吴建鑫教授,研究方向为深度学习计算机视觉,曾获国家奖学金、江苏省三好学生等荣誉。发表论文累计被引超过 240 次,著有《深度学习视频理解》一书、合译《模式识别》一书,曾获 2016 年 CVPR 视频表象性格分析竞赛世界冠军。现任腾讯在线视频研究员,专注于腾讯视频等场景下的相关视频理解任务。曾任腾讯优图实验室研究员,为微信等场景提供相关视频理解能力。个人主页:https://haomood.github.io/homepage/,知乎号 “张皓”,担任多个自媒体作者或专栏作者。

书籍目录
理论支持向量机
相关数据
周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于 南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘 等领域的研究工作。主持多项科研课题,出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012),在一流国际期刊和顶级国际会议发表论文百余篇,被引用三万余次。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

核函数技术

核函数包括线性核函数、多项式核函数、高斯核函数等,其中高斯核函数最常用,可以将数据映射到无穷维,也叫做径向基函数(Radial Basis Function 简称 RBF),是某种沿径向对称的标量函数。最常应用于SVM支持向量机中

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

凸优化技术

凸优化,或叫做凸最优化,凸最小化,是数学最优化的一个子领域,研究定义于凸集中的凸函数最小化的问题。凸优化在某种意义上说较一般情形的数学最优化问题要简单,譬如在凸优化中局部最优值必定是全局最优值。凸函数的凸性使得凸分析中的有力工具在最优化问题中得以应用,如次导数等。 凸优化应用于很多学科领域,诸如自动控制系统,信号处理,通讯和网络,电子电路设计,数据分析和建模,统计学(最优化设计),以及金融。在近来运算能力提高和最优化理论发展的背景下,一般的凸优化已经接近简单的线性规划一样直捷易行。许多最优化问题都可以转化成凸优化(凸最小化)问题,例如求凹函数f最大值的问题就等同于求凸函数 -f最小值的问题。

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

概念图技术

概念图(CGs)是知识表示的形式主义。 在第一篇关于CG的论文中,John F. Sowa用它们来表示数据库系统中使用的概念模式。 关于CGs的第一本书(Sowa 1984)将它们应用于人工智能、计算机科学和认知科学等广泛的主题。

微积分技术

微积分(Calculus)是高等数学中研究函数的微分(Differentiation)、积分(Integration)以及有关概念和应用的数学分支。它是数学的一个基础学科。内容主要包括极限、微分学、积分学及其应用。微分学包括求导数的运算,是一套关于变化率的理论。它使得函数、速度、加速度和曲线的斜率等均可用一套通用的符号进行讨论。积分学,包括求积分的运算,为定义和计算面积、体积等提供一套通用的方法 。

线性代数技术

线性代数是数学的一个分支,它的研究对象是向量,向量空间(或称线性空间),线性变换和有限维的线性方程组。向量空间是现代数学的一个重要课题;因而,线性代数被广泛地应用于抽象代数和泛函分析中;通过解析几何,线性代数得以被具体表示。线性代数的理论已被泛化为算子理论。由于科学研究中的非线性模型通常可以被近似为线性模型,使得线性代数被广泛地应用于自然科学和社会科学中。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

XGBoost技术

XGBoost是一个开源软件库,为C ++,Java,Python,R,和Julia提供了渐变增强框架。 它适用于Linux,Windows,MacOS。从项目描述来看,它旨在提供一个“可扩展,便携式和分布式的梯度提升(GBM,GBRT,GBDT)库”。 除了在一台机器上运行,它还支持分布式处理框架Apache Hadoop,Apache Spark和Apache Flink。 由于它是许多机器学习大赛中获胜团队的首选算法,因此它已经赢得了很多人的关注。

统计学习理论技术

统计学习理论是统计学和功能分析领域的机器学习框架。统计学习理论处理基于数据建立预测函数的问题,且已经在算机视觉,语音识别,生物信息学等领域得到了成功应用。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
知乎机构

知乎,中文互联网综合性内容平台,自 2010 年成立以来,知乎凭借认真、专业、友善的社区氛围,独特的产品机制,以及结构化、易获得的优质内容,聚集了中文互联网科技、商业、影视、时尚、文化等领域最具创造力的人群,已成为综合性、全品类,在诸多领域具有关键影响力的内容平台。知乎将AI广泛应用与社区,构建了人、内容之间的多元连接,提升了社区的运转效率和用户体验。知乎通过内容生产、分发,社区治理等领域的AI应用,也创造了独有的技术优势和社区AI创新样本。

zhihu.com
AMD机构

超威半导体(中国)有限公司专门为计算机、通信和消费电子行业设计和制造各种创新的微处理器(CPU、GPU、主板芯片组、电视卡芯片等),以及提供闪存和低功率处理器解决方案,公司成立于1969年。AMD致力为技术用户——从企业、政府机构到个人消费者——提供基于标准的、以客户为中心的解决方案。

https://www.amd.com/zh-hans
暂无评论
暂无评论~