Datawhale转载

周志华西瓜书详细公式推导,Datawhale开源pumpkin-book项目

如果让你推荐两本国内机器学习的入门经典作,你会推荐哪些呢?相信大家同我一样,非李航的《统计学习方法》和周志华的《机器学习》莫属。

如此经典的教材,相信大家买来也绝对不会让他待在书桌的角落。有人说西瓜书要读三遍,先通读建骨骼,再读提筋节,最后读通经络。那小伙伴在学习西瓜书的过程中,遇到最大的问题是什么呢?

公式推导!

读这本书时,你有没有那么一瞬间,有这种感觉,刚刚老师还在讲1+1,低头抬头间,变成了酱紫:

那今天我们项目的主角《pumpkin-book》,提出这个项目的小哥哥有个理念,让天下没有难推的公式(牛逼坏了,叉会儿腰)。

言归正传,南瓜书来源于西瓜书,由 开源组织Datawhale 发起,团队成员谢文睿牵头,带领6位成员,历时1个月,将西瓜书中1-7章节的公式进行了整理,对西瓜书中难点公式进行了详解,有跳跃性的公式进行了补充,于是有了《pumpkin-book》南瓜书项目。

现在我们来具体看下这个项目吧。

关于本书

周志华老师的《机器学习》(西瓜书)是机器学习领域的经典入门教材之一,周老师为了使尽可能多的读者通过西瓜书对机器学习有所了解, 所以在书中对部分公式的推导细节没有详述,但是这对那些想深究公式推导细节的读者来说可能“不太友好”,本书旨在对西瓜书里比较难理解的公式加以解析,以及对部分公式补充具体的推导细节,诚挚欢迎每一位西瓜书读者前来参与完善本书:一个人可以走的很快,但是一群人却可以走的更远。

使用说明

南瓜书是西瓜书的公式推导版,里面的内容都是以西瓜书的内容为前置知识进行表述,所以 南瓜书的最佳使用方法 是以西瓜书为主线,遇到自己推导不出来或者看不懂的公式时再来查阅南瓜书。若南瓜书里没有你想要查阅的公式,可以在issues区提交你希望补充推导或者解析的公式编号,我们看到后会尽快进行补充。

内容

目前对1-7章内容进行了梳理,后续内容更新完善中,如果你喜欢推公式,对之后的章节感兴趣,可以加入我们,一起协作完成。

例如在第6章支持向量机中,我们为了求支持向量机的原始最优化问题,需要应用拉格朗日对偶性,并通过解对偶问题而得到原始问题的最优解。在西瓜书中画风是这样的:

其中从6.8到6.9和6.10并没有展示详细的过程。可能有的读者就会迷惑,或者需要手动推一遍。但是借助南瓜书,我们可以快速理解推导的过程:

如果你在学习西瓜书过程中,遇到了不理解的公式,可以在issues留言哦,我们会根据大家需求,更新项目内容。

征集issues区

看到最后,附上《pumpkin-book》GitHub项目链接:

https://github.com/datawhalechina/pumpkin-book

在线阅读地址:

https://datawhalechina.github.io/pumpkin-book/

贡献人员名单:谢文睿、龙俊豪、排骨、孙超、黑桃、叶梁、李振强、居凤霞、胡骞、杨冰楠

Datawhale是一个专注于AI领域的开源组织,被评为上海交通大学国家级孵化项目,目前有7个独立团队,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。目前团队成员50人左右,已组织多个AI领域的开源项目和学习活动。

文字/curry

排版/leaf

工程周志华机器学习
9
相关数据
来也机构

「来也」是国内领先的人工智能交互平台,由常春藤盟校(Ivy League)归国博士和MBA团队发起,核心技术涵盖自然语言处理(NLP)、多轮对话控制和个性化推荐系统等。公司已获得数十项专利和国家高新技术企业认证。 来也的愿景是通过AI赋能,让每个人拥有助理。C 端产品小来是智能化的在线助理,通过业内创新的AI+Hi模式,提供日程、打车、咖啡、差旅和个性化查询等三十余项技能(覆盖400w用户和数十万服务者),让用户用自然语言发起需求并得到高效的满足。B端品牌吾来输出知识型的交互机器人和智能客户沟通系统,帮助各领域企业客户打造行业助理。目前已经在母婴,商旅,金融和汽车等行业的标杆企业实现商业化落地。

https://www.laiye.com/
李航人物

李航,毕业于日本京都大学电气电子工程系,日本东京大学获得计算机科学博士学位。北京大学、南京大学兼职教授。曾任日本NEC公司中央研究所研究员,微软亚洲研究院高级研究员与主任研究员、华为技术有限公司诺亚方舟实验室主任,是《统计学习方法》作者。

相关技术
周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于 南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘 等领域的研究工作。主持多项科研课题,出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012),在一流国际期刊和顶级国际会议发表论文百余篇,被引用三万余次。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

运筹优化技术

最优化问题(英语:Optimization problem)在数学与计算机科学领域中,是从所有可行解中寻找最优良的解的问题。根据变数是连续的或离散的,最佳化问题可分为两类:连续最佳化问题与组合优化。

支持向量机技术

在机器学习中,支持向量机是在分类与回归分析中分析数据的监督式学习模型与相关的学习算法。给定一组训练实例,每个训练实例被标记为属于两个类别中的一个或另一个,SVM训练算法创建一个将新的实例分配给两个类别之一的模型,使其成为非概率二元线性分类器。SVM模型是将实例表示为空间中的点,这样映射就使得单独类别的实例被尽可能宽的明显的间隔分开。然后,将新的实例映射到同一空间,并基于它们落在间隔的哪一侧来预测所属类别。

推荐文章
暂无评论
暂无评论~