引力波研究,正在数据科学中御风冲浪

作者袁钧涛博士按:我拥有德克萨斯大学奥斯汀分校天体物理学博士学位。我曾花了10年时间,使用世界上最先进的望远镜研究星系中央的超大质量黑洞。现在我是一位值得骄傲的业余天文学家——如果你不靠发论文生活,天文学会有意思得多!最近一段时间,我的职业兴趣走到了人工智能和医学的交叉点。

软件正在吞噬这个世界。从律师到医生,AI(人工智能)正在许多专业领域攻坚拔寨。现在,又轮到科学家来面对人工智能的挑战和机遇了。

在我的天文学职业生涯中所使用过的一些望远镜

在我的天文学职业生涯中所使用过的一些望远镜

上周,LIGO(激光干涉引力波天文台)探测到引力波的消息抢占了世界各地的新闻头条。这一发现也理所应当地被认为是爱因斯坦广义相对论的一个伟大胜利。我们用了100年时间才终于开发出了验证爱因斯坦预言的实验。然而,和其它任何伟大的科学发现一样,我们应该思考其对科学未来发展的影响。 

自从1919年爱丁顿那场戏剧性的日食观测以来,广义相对论已经获得了科学家的广泛接受——它已经在本科物理学课堂上被教授了几十年。引力波最先是由爱因斯坦本人怀疑然后预言的,之前也已经在多种不同的天文系统中被间接观测到过(其中之一还获得了1993年的诺贝尔奖)。而LIGO上周公布的是人类第一次直接观测到引力波。这当然具有非常重要的意义。非凡的主张需要非凡的证据。LIGO的引力波探测绝对是非凡的证据,它跨越了十亿光年的时空,帮助我们证实了广义相对论的正确性。 

然而,LIGO探测到引力波基本上符合大多数科学家的预期。事实上,人们一直在激烈地争论,在LIGO上花费十亿美元科研经费是否明智。如果LIGO没能探测到引力波,那才将成为一个更大的科学事件。那么,我们真的是花了十亿美元来证实了100年前的非凡主张(广义相对论)吗? 

当然不是!LIGO让我们能通过一个全新的窗口(引力波)来观察宇宙。在这一历史时刻之前,几乎所有关于我们宇宙的科学数据都是通过电磁波(无线电波、微波、可见光、紫外线、X射线、伽马射线等)收集的。然而我们已经知道,宇宙中一些重要的东西可能并不发光,如黑洞、暗物质、暗能量等。为了更深入地了解宇宙,通过电磁波之外的方式研究宇宙是十分关键的。LIGO为一类新天文学(引力波天文学)开启了大门——正如无线电天线将我们带入了射电天文学时代一样。毕竟LIGO称自己是「天文台」,也渴望承担天文观测台的角色。 引力波提供了一种研究宇宙的新方式,但现在我们在数据科学中面临着巨大的难题。2要理解为什么引力波存在数据上的难题,我们需要了解LIGO的工作方式。LIGO可能是人类打造过的最先进、最精密的设备。其设计目的是探测引力波经过时对时空的轻微拉伸和压缩所引起的微小长度变化。LIGO非常精确,甚至可以检测到比原子核小1000倍的运动——这是有史以来科学尝试过的最小度量。 [

美国的两处LIGO设施——两者相距2000英里以最大限度减少意外信号

美国的两处LIGO设施——两者相距2000英里以最大限度减少意外信号

但测量的精度水平也存在自身的问题。该设备对噪声非常敏感。几英里外高速公路上的一辆汽车经过、科学家的走动、飞机飞过、随机地震事件等都会产生比潜在的引力波信号更强的振动。LIGO工程难题中的一个重要部分就是开发能过滤这些噪声的硬件和软件。这就是第一篇LIGO论文包含了一千多个共同作者的原因,他们中许多是工程师。 

工程上,LIGO使用了机器学习算法来识别和预测数据中的噪声事件。例如,可以训练人工智能识别飞机越过头顶时或激光光路上反射镜的失准所引起的噪声尖峰,而不会将其误认为是真正的引力波信号。 

即使能够滤除最容易识别的噪声事件,但仍可预期LIGO每年收集的500TB数据中的绝大多数依然是噪声。要将信号和噪声区分开,存在两种基本的方法。 

 第一,我们可以检测非常强的信号。这基本上就是上周见诸报道的。两个黑洞的融合过程所释放的能量超过了整个宇宙所有恒星发光能量的总和!如果这么巨大的能量是以可见光的形式释放,这两个13亿光年外的黑洞将在我们的天空闪耀如满月(这表明,如果我们像以前那样,只通过电磁波来观测宇宙,将会错过太多信息)。许多人认为这是一个罕见的事件,可能在很长时间内都不会重复。这一次只是我们运气好。

相隔2000英里的两个LIGO设施都探测到了非常强且一致的信号

相隔2000英里的两个LIGO设施都探测到了非常强且一致的信号[

第二个方法更为实际,我们可以探测隐藏在噪声中的长期信号模式。我们可以检测「背景」引力波,这些引力波是宇宙大爆炸或星系团中的星系和黑洞不断碰撞与融合的长期运行过程所遗留下来的。随着时间的推移,这类信号的累积数据会越来越加深我们对其物理系统的理解。有了合适的物理模型,人工智能就能学会用这些数据与模型进行比对,很快预测出与新信号有关的天文事件。 引力波天文学的未来取决于我们能从嘈杂的数据中提取出多少内涵。3很长时间以来,天文学处理的数据的信噪比都很低。其中最广为人知的例子是SETI@Home,该项目致力于搜索隐藏在背景噪声内的潜在地外信号,这些信号由类似下图的望远镜收集到,这是位于阿雷西沃的大型射电望远镜。

和我的儿子一起参观阿雷西沃天文台

和我的儿子一起参观阿雷西沃天文台

SETI(搜寻地外文明计划)搜索算法并不复杂,但数据量过于庞大,需要大量的计算能力。因此有人想出了一个绝妙的主意,将计算任务分配给成千上万虽然开机但基本闲置的家庭/办公计算机 SETI@Home团队开发了一个「屏幕保护程序」,在计算机未被主动使用时(也就是当屏幕保护程序工作时)运行SETI搜索。尽管SETI@Home项目本身并没有找到任何外星人信号,但这个想法很有价值,可将世界上数百万台闲置计算机用来执行有用的任务,从物理学到药物研发再到管理新型货币系统。特别的,比如BOINC项目就是用来生成开源软件,任何项目都可以用它来向众包的计算机分配工作负载。 

 这催生了Einstein@Home项目。该项目的目的是分析LIGO数据以检测出潜在的信号。到目前为止,它已经分析了来自多个LIGO测试运行的数据,也发表了多篇经过同行评审的论文。Einstein@Home让我们看到LIGO的未来就是数据科学。但还远不止此。4为了让计算机能在噪声之海中找到信号,它必须知道要找的是什么。比如说,如果我们寻找的是一个周期性重复信号,我们可以使用傅立叶变换。对于更为复杂的信号(如从噪声中区分单个啁啾),就需要使用更为复杂的搜索算法。但是我们未来肯定需要搜索「未知」的模式信号。我们该怎样为搜索未知信号的计算机编程?幸运的是,人脑非常擅长识别模式。Galaxy Zoo项目是人与计算机合作的绝佳案例。这一项目的背景是,星系的形状(圆形或螺旋状,中心有棒或无棒等)可以告诉我们很多与之相关的物理性质和历史信息。但计算机对星系形状进行分类时存在困难。再考虑到我们可观测的宇宙中存在超过一千亿个星系,对这些星系进行分类就成了一个重要但又非常困难的任务。Galaxy Zoo项目提供了一个让公众(市民科学家)可以对随机星系图片进行分类的网站。用户之间互相检查结果以保证质量。更重要的是,机器学习算法可以从人类的分类工作中进行学习,从而让计算机在这一特定任务上越来越智能。  .

可以想象,可将类似的方法应用到LIGO数据上——人类用户可以识别出LIGO数据中潜在的模式,然后「教导」计算机识别类似的模式。正如上面提到的,可以训练机器学习算法鉴别出噪声中的尖峰是由飞机飞越头顶时产生的。或许,融合中的黑洞所产生的「啁啾」中也存在一个可识别的模式。 

 这是科幻吗?事实上并不是,几个月前,西北大学就因此获得了NSF(美国国家科学基金会)的资金5几年之前,许多人都担忧大数据可能意味着「科学的终结」——在这个意义上,科学发现将不再由理论和假说驱动,而是由数据挖掘潜在模式来驱动。不管是学术界还是产业界,人工智能的「黑盒子」让很多人备感忧虑。LIGO未来的发现将会让我们看到机器是否真的将取代科学家(嗯,至少取代博士研究生),还是说让科学家更具效率。 我们正生活在一个激动人心的时代。  

来自medium,作者Michael Yuan(袁钧涛博士,天体物理学博士,Ringful Health创始人),机器之心经作者授权翻译。参与:吴攀,汪汪。

入门
暂无评论
暂无评论~