Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

M、小七编译

每个数据科学家都该读的五本无关技术的书

2010年,我在华盛顿大学的一节课上写了我的第一行R代码。当我意识到代码比电子表格更强大时,我立马就迷上了。在过去十年中,我目睹了“数据科学”一词的广泛使用,并看到了大数据、商业智能、数据分析和现在的人工智能等流行语的兴衰。

在华盛顿大学开启我人生新阶段的这一课程是“金融计量学”,就像今天的深度学习课程一样,很大的教室也坐的满满当当。当时,金融危机在每个人心中仍然历历在目。对于工程师来说,这也是一种微妙的信息: 如果你想获得一份报酬丰厚的工作,那么就进入金融领域,成为一名金融计量分析师,就像今天的数据科学一样。

在业务运营中直接使用数学的概念很有趣,不仅仅是为了决策支持,更是为了做出实时决策。然而,金融危机也暴露了,即使是最复杂的模型来应对现实世界的混乱也有不足之处。

许多人认为,金融危机的核心是获得过诺贝尔奖的布莱克-舒尔斯模型(Black-Scholes)期权定价模型。这个模型在不了解其固有局限性和隐含假设的情况下,来衡量大型投资的风险。这种技术盲目性造成了灾难性经济损失的条件。

如今,有抱负的数据科学家们都需要去学习一系列令人难以置信的建模技术。每种方法背后都有自己的一套理论,例如线性回归,你通过使用它就可以知道这些理论的实用性,不管你了解其背后的理论也好,不了解也罢。

这已经创造了一大批准备使用模型而不了解模型背后理论的新工人。年轻社区没有解决技术盲目性问题,而是参与有关工具的代理争论(R与Python!)。

为了帮助解决这个问题(我也受到了影响),我这里提供了一份简短的阅读清单,这份清单可以为数据科学家们奠定理论基础。此外,这些书还将激发你思考在使用模型之前有关模型技术假设的问题。

此列表并非详尽无遗,书籍主题也会从入门到深入研究。其对金融工程的影响是巨大的,因为相比比任何其他学科,金融工程更多的产生的是通用数据科学家。

《不确定性》:这套书是Nassim Taleb的著作集,其中最著名的是《黑天鹅事件》,最好的是《反脆弱》。Taleb是风险、不确定性和定量问题方面最伟大的现代思想家。他也是一个推特大V,以炮轰那些他称为 “有知识却仍然是白痴”(简称IYI)的人而闻名。在背景方面,他原本是一位移民衍生品交易员,之后成为了数学哲学家。你要么爱他,要么恨他,因为他会在他的所有写作中不断挑战你的假设。如果他新写了任何东西,你都应该立即把它放在你的阅读清单上。

《财富公式》:这是关于凯利标准早期在麻省理工诞生的故事。凯利标准据说产生于一次巨大的财务成功。您将了解信息理论之父(Claude Shannon)以及后来在Ed Thorpe所著的《击败庄家》中出名的记牌恶作剧的源头。Thorpe现在被认为是定量对冲基金的教父。最重要的是,这本书展示了一个好的模型如何永远不会被忽视,但是坏的模型可能会毁掉你。这个故事也是历史上计算机科学和数学第一次合作解决现实世界的问题——赌博。这个故事是数据科学产业诞生60年前的一个预示。

《混沌:开创新科学》:这本书包含了最新兴科学的详细历史。既有混沌理论的历史,也有关于该主题的评论。本书将让读者了解我们模拟现实世界的能力的局限性。由于非线性过程的性质,许多正在开发和已经使用的深度学习模型无法真正被理解。本书将帮助您理解这些局限性。此外,光是对Benoit Mandelbrot的生活和工作进行全面评价,就使这本书对于任何数据科学家来说都是必读的。James Gleick是一位出色的作家,还有许多其他优秀的书籍可以添加到你的阅读列表中。

《暗池交易》:本书讲述了一个程序员改变了股市交易的故事。现在预测模型被部署在高频交易的世界中,其中决策以纳秒速度进行。本书介绍了这个隐蔽但强大的生态系统的诞生。关于这个故事的奇妙之处在于它阐明了当你知道一些代码时如何解决许多问题。它还表明创造真正的价值是做一些真正创新的事情,而不是依赖现有的假设。有时你必须有点疯狂才能解决一个难题。

《不会死的理论》:本书主要讲述贝叶斯公式和贝叶斯统计的历史以及它的竞争对手——频率统计。统计历史和用平实的语言评论关键技术主题使得本书变得至关重要。你将了解历史上一些最伟大的思想家,如Pierre Laplace和R.A. Fischer,以及他们的哲学在几个世纪以来如何塑造了世界的数据处理方法。

这五本书虽然不详尽,但将有助于为处理现实问题的数据科学家建立哲学基础。使其不再犯十年前那些金融计量学家们所犯的错误。寻求理解技术和模型的哲学,而不仅仅是机械地使用他们,我们的专业将变得无价。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业数据科学
1
相关数据
克劳德·香农人物

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

线性回归技术

在现实世界中,存在着大量这样的情况:两个变量例如X和Y有一些依赖关系。由X可以部分地决定Y的值,但这种决定往往不很确切。常常用来说明这种依赖关系的最简单、直观的例子是体重与身高,用Y表示他的体重。众所周知,一般说来,当X大时,Y也倾向于大,但由X不能严格地决定Y。又如,城市生活用电量Y与气温X有很大的关系。在夏天气温很高或冬天气温很低时,由于室内空调、冰箱等家用电器的使用,可能用电就高,相反,在春秋季节气温不高也不低,用电量就可能少。但我们不能由气温X准确地决定用电量Y。类似的例子还很多,变量之间的这种关系称为“相关关系”,回归模型就是研究相关关系的一个有力工具。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

推荐文章
暂无评论
暂无评论~