罗然、云舟编译

机器学习+天体物理:星辰图像的更高效处理方法

为了应对宇宙数据即将出现的指数级增长趋势,天体物理学家也开始将目光投向机器学习

Kevin Schawinski的问题

2007年,他在牛津大学担任天体物理学家,努力回顾了斯隆数字巡天计划中超过900,000个星系七年中有价值的照片。他花了几天时间翻来覆去观察这些图像,并记录下了一个星系是螺旋形还是椭圆形的,以及它的旋转方式。

技术的进步加快了科学家收集信息的能力,但科学家们处理信息的速度却没有相应提升。 Schawinski和同事Chris Lintott花费了大量的时间来处理这个任务(即是上面提到处理星辰图像的任务),但并没有得到良好的效果,因此,他们决定必须找到更好的方法来解决这个问题。

Schawinski和Lintott通过一个名为Galaxy Zoo的公民科学项目从公众中招募志愿者来帮助他们分类网上的星辰图像,并向多名志愿者展示相同的图像以便让他们能够检查彼此的工作。最终,超过10万人参与并完成了这一项任务,如果靠他们自己的话,这项任务可能需要数年时间才能完成,但通过这种方式不到6个月就完成了。

公民科学家继续为图像分类任务做出贡献。但技术也在不断发展。

暗能量光谱仪器计划于2019年开始,五年内将测量约3000万个星系和类星体的速度。大型天气调查望远镜定于20世纪20年代初开始工作,每晚将收集超过30TB的数据 – 并持续十年。

“来自这些调查的数据量至少要大一个数量级,”芝加哥大学博士后研究员Camille Avestruz说。

为了跟上数据的增长,像Schawinski和Avestruz这样的天体物理学家已经着手招募了一类新的、非人类的科学家:机器。

研究人员正在使用人工智能来帮助完成天文学和宇宙学中的各种任务,从图像分析到望远镜调度

超级调度,计算机级别的校准

人工智能似乎是计算机可以推理,决策,学习和执行与人类智能相关的任务的方式的总称。机器学习人工智能的一个子领域,它使用统计技术和模式识别来训练计算机做出决策,而不是编写更直接的算法。

2017年,斯坦福大学的一个研究小组利用机器学习来研究强引力透镜的图像,这种现象指的是空间中物质的积累足够密集时会弯曲光波。由于许多引力透镜不能单独通过发光物质来解释,因此更好地了解引力透镜可以帮助天文学家深入了解暗物质。

过去,科学家通过比较重力透镜的实际图像,并使用计算机大量模拟数学透镜模型来进行研究,这个过程可能需要数周甚至数月才能生成单个图像。但一个斯坦福大学的团队表明,机器学习算法可以将这个过程加速数百万倍。

Schawinski现在是苏黎世联邦理工学院的天体物理学家,并在他目前的工作中应用了机器学习。他的小组使用了称为生成对抗网络(GAN)的工具来恢复因随机噪声而降级的图像。

机器学习在天体物理学中的另一个应用涉及解决诸如调度之类的逻辑挑战。对于望远镜来说,一夜之间只有一个固定的时长可以使用给定的高倍望远镜,并且在一个确定的时间它只能指向某个特定的方向。芝加哥大学的物理学家,费米实验室机器智能小组的成员布莱恩诺德说:“使用望远镜数周就能花费数百万美元。”该公司的任务是帮助所有高能量领域的研究人员在他们的工作中部署AI。

机器学习可以帮助天文台安排望远镜,使他们能够尽可能有效地收集数据。 Schawinski的实验室和Fermilab都在使用一种称为强化学习的技术来训练算法解决这样的问题。在强化学习中,算法不是针对“正确”和“错误”答案进行训练,而是通过依赖于其输出的不同反馈。算法必须在选项的安全性,可预测的收益与通过意外方案完美解决问题的可能性之间取得平衡。

不断增长的AI应用领域

当芝加哥大学丰田技术学院的计算机科学研究生Shubhendu Trivedi开始与他的导师Risi Kondor一起教授深度学习的研究生课程时,他很高兴地看到有很多来自物理科学的研究人员报名参加。他们对如何在他们的研究中使用AI知之甚少,Trivedi意识到机器学习专家能够帮助不同领域的科学家找到利用这些AI新技术的方法,但目前这一需求并没有得到满足。

他与班上研究人员进行的对话演变为合作,包括参加深空天体实验室,这是一个天文学和人工智能研究小组,由Avestruz,Nord和太空望远镜科学研究所的天文学家Joshua Peek共同创立。本月早些时候,他们提交了他们的第一篇同行评审论文,展示了基于人工智能的方法在宇宙微波背景下测量引力透镜的效率。

论文地址:

https://arxiv.org/abs/1810.01483

事实上,各地都出现了类似的团体,从瑞士的Schawinski集团到澳大利亚的天体物理和超级计算中心。天文学中机器学习技术的采用正在迅速增加。在arXiv对天文学论文的搜索中,“深度学习”和“机器学习”这两个术语在2018年前七个月的论文标题中出现的比2017年全年更多,而2017年全年都超过了2016年。

“五年前,天文学中的机器学习算法是在大多数情况下比人类表现更差的深奥工具,”Nord说,然而如今,越来越多的算法开始优于人类:“你会惊讶于它有多少低悬可摘的果实。”

但是将机器学习引入天体物理学研究也存在很多障碍。其中最大的问题在于机器学习对天文学家来说往往是一个黑盒。Schawinski说:“我们不了解神经网络如何工作和理解事物”,对于使用工具而不完全了解它们的工作方式,科学家们感到很担心。

另一个绊脚石则是不确定性。机器学习通常建立于具有一定量噪声或误差的输入,并且模型本身会做出引入不确定性的假设。研究人员在工作中使用机器学习技术需要了解这些不确定性,并将这些不确定性准确地传达给彼此和更广泛的研究领域。

机器学习的现状发生了如此迅速的变化,研究人员不愿意对未来五年即将发生的事情进行预测。 “如果数据能直接从望远镜中取出,而机器可以利用这些数据,发现并创造出意想不到的模式,我会非常兴奋,”Nord说。

无论未来的发展形式如何,数据的发展都会越来越快。研究人员越来越相信,人工智能将成为帮助他们跟上发展的必要条件。

相关报道:

https://www.symmetrymagazine.org/article/studying-the-stars-with-machine-learning

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

理论图像分类物理天文神经网络深度学习强化学习模式识别机器学习
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~