伯克利科学家探索深度学习在科学中的前沿应用

最近,加州大学伯克利分校NERSC(美国国家能源研究科学计算中心)实验室的研究人员测试了为高性能计算研发的先进机器学习工具。

NERSE和Berkeley Lab介绍

美国国家能源研究科学计算中心(The National Energy Research Scientific Computing Center ,NERSC),是美国能源部科学局的主要科学计算设备。作为专为基础科学研究提供计算资源和专门技术的世界上最大设备之一,NERSC是通过计算加速科学发现的领导者。它位于劳伦斯伯克利国家实验室,供国家实验室以及大学6,000多名的科学家使用,NERSC从事许多基础科学研究,包括气候模拟、材料科学、聚变能、早期宇宙模拟、高能物理实验的数据分析、计算机生物学、蛋白质结构的研究等。伯克利实验室(Berkeley Lab)是美国能源部的国家实验室,位于加州伯克利。实验室主要从事非传统科研,由加州大学代能源部科学局进行管理。

伯克利实验室的生物系统和技术部门(Berkeley Lab's Biological Systems and Engineering Division)使用深度学习库(a deep learning library )分析记录说话时大脑情况的数据。 伯克利实验室的生物系统和技术部门(Berkeley Lab's Biological Systems and Engineering Division)使用深度学习库(a deep learning library )分析记录说话时大脑情况的数据。[/caption] 深度学习不新鲜,但是,把这些工具运用到美国国家能源研究科学计算中心(NERSC)超级计算机每天都要处理的超级庞大科学数据组时,就是另一番情况了。 现在,伯克利实验室正在试着改变这一情况,他们尝试用为高性能计算研发的深度学习软件解决在NERSC以及其他超级计算设备上运行计算所遇到的大量科学难题。 伯克利实验室数据和分析服务小组的负责人Prabhat说,「我们在评估深度学习是否可以用于气候研究,中微子实验以及神经科学等方面的数据组。」「日常研究中,超级计算机以及实验观察仪器会生成海量数据。关键问题是如何自动挖掘数据隐藏模式,这正是深度学习擅长的。」 深度学习,是机器学习一个分支,也是神经网络的最新迭代,用以解决机器学习存在的问题。借助机器学习算法,计算机可以分析给定数据集指定样本,找出其中模式,还能预测可能发现的其他模式。 深度学习被设计用来学习输入数据的分层、非线性集合。能避免典型机器学习对设计自定义特征的要求,也是目前实现分类、回归以及后果预测等任务最先进的技术。虽然三十年前已经有了核心概念,但是,直到大数据出现以及硬件资源性能提升、近期算法创新,诸如谷歌、百度这类的公司才能在图像、语音识别问题上取得巨大进展。 [caption id="attachment_9144" align="aligncenter" width="500"]深度学习工具正协助气候科学家更好的识别极端天气事件与气候变化之间的关联。 深度学习工具正协助气候科学家更好的识别极端天气事件与气候变化之间的关联。

让人惊讶的是,到目前为止,深度学习还没有被运用到科学数据分析中,很大原因在于这些算法不是被设计用来在高性能超级计算系统上运行的,比如NERSC中的那些超级计算系统。

一家提供深度学习云服务的创业公司Nervana的首席技术官以及联合创始人Amir Khosrowshahi说,「挑战之一是如何为相关领域解读深度学习从语音,图片和文本中所获得的信息,比如大气模拟。」公司正在测试beta版Neon,这是NERSC的一个开源深度学习库。「那些数据可以自然映射图片或视频分析问题的领域,最易采用最新深度学习算法解决问题。」

三个研究案例

以气候数据分析为例。现代气候模拟产生了大量数据,需要成熟的技术识别Tb甚至PB级别数据库的模式,比如,极端天气与气候关系。NERSC数据和分析小组已经与伯克利实验室展开合作,测试Neon的深度学习库能否有助于简化这一过程。到目前为止,结果很乐观。

NERSE已经为Daya Bay 实验架设了深度学习数据管道,无监督深度学习首次被用于粒子物理学领域。

NERSE已经为Daya Bay 实验架设了深度学习数据管道,无监督深度学习首次被用于粒子物理学领域。

Prabhat 说,「实践中,我们发现较之其他方法,使用深度学习得到的结果是最为先进。」「比如,在气候模拟数据中,寻找热带气旋的准确率达到95%。」之前提到的这些调查结果会在12月14日到18日旧金山召开的2015 American Geophysical Union会议上公布。

大亚湾中微子实验也在测试深度学习算法是否可以提升数据分析能力。实验从2011年就开始搜集数据,并一直持续到今天。 NERSC的数据和分析服务组的数据结构师Wahid Bhimji说,和所有粒子物理实验一样,大亚湾实验也需要海量数据,虽然使用了十分成熟的分析方法,但是,实验还是需要大量手调和物理知识。去年,这个小组监管了在NERSC为 大亚湾架设深度学习管道的工作。他们试着用深度学习自动减少数据特征。他们发现,无需人工干预系统就可以挑选出有趣的物理特征。这也是深度学习首次被用于粒子物理研究。

Kris Bouchard是伯克利实验室生物系统和技术部门的计算机系统神经科学家。他已经于NERSC,伯克利以及旧金山分校展开合作,将一个叫做Theano的深度学习库用于分析记录说话时大脑情况的数据。 他介绍说,我们想要解决的这样一个基本问题,在记录下正被转化为行动的大脑信号同时,解码或翻译出这些信号。被用于解决这一问题的传统工具属于标准机器学习办法,不适合用来解释脑数据深层结构。

在发现大脑信号模式方面,深度学习是个更加强大且富有弹性的工具。他补充说,我们团队使用深度学习解码语音音节,正确率达39%,比传统算法好200%,也是这个领域最先进技术。合作结果将在蒙特利尔举行的 2015 Neural Information Processing Systems Conference 上公布。 数据中心组的副主任,英特尔高性能计算平台总经理 Charles Wuischpard说,深度学习和机器学习的工作量与日俱增,这会改变科学家和企业家获取洞见、尝试解决巨大挑战的方式。这些工作量需要高性能计算和大数据操作技术来加速研究,攻克模型训练中的瓶颈。我们很高兴和伯克利实验室以及NERSC的研究人员一起工作,在使用 Intel® Xeon®和 Intel Xeon Phi TM 处理器的系统上训练全新水平的深度神经网络,真正推动研究迭代。期望未来会有更多的发现。

Prabhat说,在为科学研究研发深度学习方面,NERSC处于领先地位。在传统物体识别任务、气候科学、高能物理以及神经科学方面,MANTISSA项目已经了有了最先进成果。通过与Nervana System合作,我们已经研发出适用于更广泛科研领域的软件工具。而且,我们也在积极与英特尔以及伯克利展开合作,在Cori平台上部署大规模平行、高性能深度学习库架构。深度学医已经变革了商业应用;我们很高兴能将这一强大技术用于模拟、实验性以及观察性数据组。  

来自nersc,机器之心编译出品。编译:微胖。

入门深度学习