从化学结构式,可以看出化合物是如何构成的,它们由哪些原子组成,这些原子在空间上是如何排列的,以及它们是如何连接的。化学家可以从结构式中推断出哪些分子可以相互反应,哪些分子不能,如何合成复杂的化合物,或者哪些天然物质可以与细胞中的目标分子结合而具有治疗效果。
在过去的几十年里,描述化学结构的出版物数量稳步增加。但是,大多数已发表的化学资料目前在公共数据库中没有机器可读的形式。以一种需要较少人工干预的方式自动化信息提取过程仍然是一个挑战,尤其是对化学结构描述的挖掘。
近日,来自德国耶拿大学(Friedrich Schiller University Jena)的研究团队开发了一个开源平台:化学图像识别深度学习(Deep lEarning for Chemical IMagE Recognition,DECIMER),利用人工神经网络将化学结构式翻译成机器可读的形式。
DECIMER.ai 致力于自动分割、分类和翻译印刷文献中的化学结构描述。分割和分类工具是同类中唯一公开可用的软件包,光学化学结构识别 (OCSR) 核心应用程序在所有基准数据集上都具有出色的性能。
该研究开发的源代码、经过训练的模型和数据集已在许可下发布。DECIMER.ai 工具可在线获取:https://decimer.ai
该研究以「DECIMER.ai: an open platform for automated optical chemical structure identification, segmentation and recognition in scientific publications」为题,发布在《Nature Communications》上。
结构化数据格式和开放数据库中化学信息的可用性不仅有利于化学本身的研究人员,也有利于使用化学信息的科学领域,如医学、药剂学、材料科学、分子生物学等。
发展于 19 世纪的分子结构式表示法经受住了时间的考验,至今仍在每本化学教科书中使用。但是,让人类凭直觉理解化学世界的,只是软件的一组黑白像素。
将结构式翻译为机器可读的代码
「为了使结构式中的信息可在可自动搜索的数据库中使用,必须将它们翻译成机器可读的代码。」耶拿大学分析化学、化学信息学和化学计量学教授 Christoph Steinbeck 解释道。
而这正是使用人工智能工具 DECIMER 可以做到的。DECIMER 是一个开源平台,每个人都可以免费使用,并且可以在标准网络浏览器中使用。只需拖放即可将包含化学结构式的科学文章上传到那里,人工智能工具将立即开始工作。
「首先,在整个文档中搜索图像,」Steinbeck 解释道。然后,该算法识别所包含的图像信息,并根据它是化学结构式还是其他图像对其进行分类。最后,将识别的结构式翻译成化学结构代码或显示在结构编辑器中,以便可以进一步处理。「这一步是该项目的核心,也是真正的成就。」Steinbeck 补充道。
这样,咖啡因分子的化学结构式就变成了机器可读的结构代码:CN1C=NC2=C1C(=O)N(C(=O)N2C)C。然后可以将其直接上传到数据库并链接到有关该分子的更多信息。
受 AlphaGo 启发
为了开发 DECIMER,研究人员使用了最近才建立的现代人工智能方法。为了训练其人工智能工具,该团队从现有的机器可读数据库中生成了结构公式,并将其用作训练数据——迄今为止,已有约 4.5 亿个结构公式。除了研究人员之外,公司也已经在使用人工智能工具,例如将专利说明书中的结构公式转移到数据库中。
几年前,Steinbeck 和 Achim Zielesny 提出了开发一种用于解码化学图像的人工智能工具的想法。2016 年,他们与全球数百万人一起观看了当时最好的围棋棋手韩国李世石(Lee Sedol)与计算机软件 AlphaGo 之间的精彩对决,机器以 4:1 获胜。
「这是晴天霹雳,向我们展示了人工智能的强大力量,」Steinbeck 回忆道。在那之前,人们认为算法在这款游戏中能够与人类的创造力和直觉相媲美几乎是不可想象的。
「不久之后,一个人工智能工具发展出了准超人的棋力,它不是通过无数次人类对弈的艰苦训练——就像 AlphaGo 的情况一样——而是简单地通过系统一次又一次与自己对弈的过程 ,并优化其游戏风格,我们意识到这些新方法还可以通过足够的训练数据解决其他非常复杂的问题。我们希望将其用于我们的研究领域。」
电脑、手机都可免费用
值得一提的是,DECIMER.ai web 应用程序是第一个用于从科学文献中提取化学信息的全面开源用户界面应用程序。
DECIMER Image Transformer 可翻译具有高度相似性的化学结构描述。通过将其嵌入到 DECIMER.ai 应用程序,人类管理员人可以立即评估预测,并在必要时在分子编辑器窗口中纠正它们。对于化学结构描述的分割和分类,DECIMER Segmentation 和 DECIMER Image Classifier 是唯一可用的开源应用程序。
由于可以通过网络浏览器从手机或平板电脑访问 DECIMER,因此这些工具能够识别现实世界中的化学结构。
通过 DECIMER,Steinbeck 和他的团队希望在某个时候能够机器阅读他们感兴趣的所有化学文献(追溯到 20 世纪 50 年代),并将其翻译成开放数据库。
小编已在线体验,真的很丝滑,感兴趣的小伙伴也去试试吧~
参考内容:https://phys.org/news/2023-08-chemical-knowledge-human-machine.html