王嘉仪、魏子敏作者

概率论从入门到放弃?布朗学霸火到宕机的毕业作品,让统计“看得见”

统计学可能是最容易逼疯人的学科之一了。

黄白球在箱子里拿来拿去怎么也拿不到自己想要的,硬币抛来抛去也没有看到另一面,生日算来算去还是跟喜欢的人不一样。

别急,这跟你的智商无关,很可能是由于你没有好的学习工具。今天文摘菌来介绍一款由布朗大学的学霸设计,辅助统计学习的好帮手——看见统计(Seeing Theory)。

中文版网站地址:https://seeing-theory.brown.edu/cn.html

Seeing Theory是一个在线学习概率论与数理统计的学习平台,涉及了几乎所有初、中级统计知识,最重要的是,这个平台把这些抽象难懂的知识全部可!视!化!出来了。

比如这样👇

它总共分为五个单元,每单元有三个可视化模块,基本上把初阶概率论的课程涵盖了。可视化包括经典的投硬币模型(甚至还模拟非均匀硬币),还有对著名的数据集的关系的探索。

每一个可视化模型都建立在前一个的基础上,每一单元内容都环环相扣。

这很像一个“可以动”的课本,无论是高中生还是大学初年级的同学,都可以在其中获得一点灵感和启发。网站也把可视化展示的统计知识整理成了严肃的数学文稿,放在最后,供希望深入了解的用户下载阅读。

早期它只有全英的界面,且有一些板块还没成型。现在很欣慰的是,中文版本以及西班牙语版本都已经上线。

中文版”看见统计“是由一位叫Zhimei Ren的小姐姐翻译,她在北京大学数学学院获得了学士学位,现在是斯坦福大学统计系的博士生,研究兴趣包括高维统计推理和因果推理

被概率论难倒的学霸 

平台的创建者Daniel Kunin是个不折不扣的学霸:布朗大学计算生物学系,以GPA3.93的成绩从Brown大学毕业,现在是斯坦福计算机与数学工程的研究生。

即使是这样的聪明人,也曾经饱受统计学摧残。

尽管并不是数学系的学生,但统计学仍然是Daniel Kunin的课程。“我当时想往生物化学领域发展,但觉得要学习计算机编程”。

Daniel Kunin在大一选了学校里Caroline Klivans教授的统计学入门。统计学的课程是基础,他看的统计理论书籍也许与你我并无二致,面对着复杂数学模型只能抓头发。

大二的他选了计算机系教授Steve Reiss所教的网页开发导论。这门课的期末作业要求学生们以小组作业的形式完成一个项目。在浏览选题参考方向和注意事项的时候,他留意到“本项目用于开发对于统计学导论可有用的小程序,需要在里面展示已经学过的统计学概念。学生在使用程序时能更加强化学的内容。”

“我数学背景不是很强,之前上统计课的时候理解那些深奥的概念非常艰难,我对一些非常基础的概念毫无感觉。既然我学了可视化,我希望我有更多的办法来帮助我建立这种直觉。”

而为网页开发导论这门课选题的过程中,Daniel也想到了把两者结合起来,用可视化的方式学习统计学。他找到同学一起制作了这个非常棒的能够培养新手学习概率统计兴趣的网站——Seeing Theory。

成为校园网红,火到宕机! 

网站框架和思路有了,但还不够。跟有意思的人一起合作才能做好事情,为了制作这个网站,Daniel找来了几个合作伙伴。

他先跟数学系学长Madeleine Johnson构建网站框架。作为一个精通Python, Matlab, Julia, R, C/C++, Java, Javascript/HTML/CSS的统计学高材生,Daniel Kunin最喜欢把数据变得好看,于是又请来罗德岛设计学院工业设计系的Jingru Guo,将网页交互体验设计的十分舒适美观。Jingru Guo现在去了亚马逊

Tyler Dae Devlin, Dan Xiang, Daniel Kunin, Jingru Guo

他们把贝叶斯推理和回归分析的复杂公式和大段解释用最直观的方式展示出来,让人们看到数据组合在一起,究竟会发生什么相互反应,理论又是如何构建出来的,让用户可以用感知力来学习抽象的理论。

但是我们做这个网站可不为了改编教材什么的,而是更希望给学生提供一个额外有趣的资源,让他们能独立的探索自己的想法,培养创造力。

上线不久,这个炫酷又好看的网站成为推特和Facebook的校园热点。

“我正在计算机导论的课上当着TA,我的朋友跑过来告诉我,网站宕机了,并且他让我看看Facebook上的反响”。我想了一下,我没删除什么重要的代码呀,我检查了一下校园网服务器都很好,唯独我的网页没有反应。”

原来是约翰霍普金斯大学的教授在他的推特上推荐了他的网站。之前的用户规模很小且都在美国,这次传播仅仅72小时后,就来了世界上成百上千万的访问者,挤爆了网站。

Klivans教授看到这个作品觉得很有意思,多年的教学经验让她立刻意识到了这是个靠谱的工具,她非常了解有大量的学生还在统计学的大门前徘徊难以进入。修复问题后,目前这个网站已经在布朗大学两大统计课上开始应用了。 

这个网站已经获得多个设计大赛的奖项

Daniel Kunin持续收到很多来自学生、老师和研究者的反馈建议,“我想把这些想法都营运进去”,于是他又找到其他小伙伴:同校的Tyler Devlin和Dan Xiang,想在业余时间不断改进。

Tyler Devlin是一名数据挖掘工程师,Dan Xiang是一位在读博士的中国小哥。“我们有四个计划,其中之一就是希望写入更多内容,融入机器学习的理念,我们还要把它翻译成不同国家的语言。”

爱上统计学 

这次作业也从此改变了Daniel学习统计学的痛苦心态。

之后,他对数理统计从束手无策变成了狂热。“我一发不可收拾的爱上了这个学科。我又接着选了更多的CS课程,还当了两名课的助教”。

大四那年,Daniel参加北美高校数学统计学科学生最喜欢参加的Citadel Data Open大赛,并赢得了第一名获得2万刀奖金。 

Daniel Kunin个人主页:http://daniel-kunin.com/

从个人主页上可以看出,Daniel还是一个生活非常丰富多彩的极客:运动爱好者,他曾跟一个七人团队在北极徒步600km,跟两个伙伴在以色列境内刷了1000km,独自穿越650km的太平洋山脊步道;生活上也非常精致,喜欢做饭,尤其是酿酒。

有颜值又好玩的统计概念入门平台

最后,还是跟文摘菌一起来探索一下这个网站。

这个网站的界面非常友好漂亮。它的导引菜单和有趣漂亮的界面吸引着笔者把上面所有内容浏览了一遍。这些作品里主要用到了D3和Mike Bostock’s data visualization software实现。

拿这个线性回归章节中的最小二乘法做个简单介绍。

第一步:选择不同的数据集,这里有四组。它所使用的数据集是:安斯库姆四重奏,它由统计学家弗朗西斯·安斯库姆(Francis Anscombe)于1973年构造的,用来说明在分析数据前先绘制图表的重要性,以及离群值对统计的影响之大。

第二步:拖动右侧方形滑块的点。你会看到你随意点击拉动的方块大小,最终影响到这条直线的斜率,即线性回归的相关系数不断变化,包括SSE(残差平方和)的变化。如图所示,你不理解一些特定的字母意义,也可以点击查看介绍。我们通过互动理解了这个方程的每一部分。

接着下一节【相关性】,用的是Edgar Anderson的著名的 鸢尾花(Iris flower)数据集来显示数据的视觉特征。诸位曾经学习datamining, analytics, stat, biostat的同学,就会懂得这朵花。

 其实人们对于对于可见的事物更容易理解,对于抽象理论的理解应该被放在入门以后去深入。

再换一个板块也是一样简单操作,只需点点鼠标就能将大样本绘制出图形。点击不同的格子:

(安德森鸢尾花卉数据集指的是,最初埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的形态学变异数据,后由罗纳德·费雪作为判别分析的一个例子,运用到统计学中。其数据集包含了150个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾。四个特征被用作样本的定量分析,它们分别是花萼和花瓣的长度和宽度。基于这四个特征的集合,费雪发展了一个线性判别分析以确定其属种。)

想想当年学数学时候的痛苦,遥远的黑板与听不清教师的方言,都让我们对美妙的数学望而却步,今天有这么多学习工具,有一个探索的心,学习还是问题吗?

相关报道:https://cs.brown.edu/about/conduit/conduit_v27.pdf

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

入门概率论统计学
4
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

相关技术
最小二乘法技术

最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。 利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。 “最小二乘法”是对过度确定系统,即其中存在比未知数更多的方程组,以回归分析求得近似解的标准方法。在这整个解决方案中,最小二乘法演算为每一方程式的结果中,将残差平方和的总和最小化。

因果推理技术

基于因果关系的一类推理方法,是一种常见推理模式,涉及观察到的共同效应的原因的概率依赖性。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

Julia技术

Julia 是MIT设计的一个面向科学计算的高性能动态高级程序设计语言,项目大约于2009年中开始,2018年8月JuliaCon2018 发布会上发布Julia 1.0。据介绍,Julia 目前下载量已经达到了 200 万次,且 Julia 社区开发了超过 1900 多个扩展包。这些扩展包包含各种各样的数学库、数学运算工具和用于通用计算的库。除此之外,Julia 语言还可以轻松使用 Python、R、C/C++ 和 Java 中的库,这极大地扩展了 Julia 语言的使用范围。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

线性判别分析技术

线性判别分析 是对费舍尔的线性鉴别方法的归纳,这种方法使用统计学,模式识别和机器学习方法,试图找到两类物体或事件的特征的一个线性组合,以能够特征化或区分它们。所得的组合可用来作为一个线性分类器,或者,更常见的是,为后续的分类做降维处理。

在线学习技术

在计算机科学中,在线学习是一种机器学习方法。和立即对整个训练数据集进行学习的批处理学习技术相反,在线学习的数据按顺序可用,并在每个步骤使用未来数据更新最佳预测器。

回归分析技术

回归分析是一种用于估计变量之间的关系(当一个自变量变化而其它变量固定时,因变量会如何变化)的统计过程,在预测任务中有广泛的应用。回归分析模型有不同的种类,其中最流行的是线性回归和 逻辑回归(Logistic Regression)。另外还有多变量回归、泊松回归、逐步回归、脊回归(Ridge Regression)、套索回归(Lasso Regression)和多项式回归等等。随机梯度下降(SGD)就是一种起源于回归分析的常用方法,可用于控制复杂度。

暂无评论
暂无评论~