Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

绿萝作者

这个枯燥、费时的植物表型分类问题,AI帮植物学家干了

植物识别技术似乎已经很成熟,从微信「扫一扫」到植物识别APP、小程序等等。随着物联网、人工智能(AI)等技术的进步,即使是普通人可成为花草识别的「专家」。那真正的植物学家是如何利用AI来加速植物识别及分类的呢?

图片

奥地利的一组科学家创建了一个新的、用户友好的人工智能程序,通过自动分析大量植物图像来加速他们的研究。他们于 2020 年 4 月公开了源代码的初始版本。
植物研究包括识别它们的基因型(基因组成)和表型(可观察的物理特征)。获取生物体的基因组序列是生物学研究的基本部分。时任奥地利科学院格雷戈尔孟德尔分子植物生物学研究所 (Gregor Mendel Institute of Molecular Plant Biology,GMI) 的科学家 Patrick Hüther 说,「它允许研究人员在特定的表型(例如身高或颜色)与相关基因之间建立联系(该团队现在在慕尼黑的路德维希-马克西米利安大学)。」 Hüther 是一篇关于开发名为「ARADEEPOPSIS」新人工智能程序的研究文章的共同主要作者。
植物表型研究是农业、环境和药物研究的重要组成部分。随着世界人口的增加和气候变化的迫在眉睫的挑战,完善种植食物的科学比以往任何时候都更加重要。农场经营者非常熟悉如何通过结合遗传分析和田间表型分析来影响植物性状,从而在作物中产生所需的特性。尽管表型分析在农业中越来越受到关注,但有研究指出对大量表型数据的快速处理的需求也在增长——且以研究人员可以很容易解释的形式。
同样,了解植物与其栖息地的关系也有助于科学家了解环境。研究发现,在沿海和内陆地区生长的植物的表型和基因型差异不一定与植物的位置相关。生物学家还使用植物来研究人类疾病。研究人员开发了植物模型,通过将植物表型与人类和其他物种的表型进行比较,从而识别出不显眼的相似性,可以预测与人类先天性疾病有关的基因。
在准确性和效率方面,解码植物DNA的技术远远超过了对植物图像进行编目的技术
根据研究范围,收集基因型和表型数据可能会产生大量信息,特别是因为植物发育通常要经过数周或数月的研究。但是,在准确性和效率方面,解码植物 DNA 的技术远远超过了对植物图像进行编目的技术。不平衡的数据收集方法可能会导致「表型瓶颈」——大量等待分析的图像积压。反过来,这个瓶颈会延误研究人员分析数据和得出结论。
2018 年,GMI 的科学家们开始开发他们自己的解决方案来解决这个问题——一个易于使用的软件程序,可以快速处理大量植物图像,并解释植物标本之间的颜色变化和其他差异。
「ARADEEPOPSIS」这个名字来自于拟南芥基于深度学习的最优语义图像分割。拟南芥(Arabidopsis thaliana)是一种快速生长的植物,经常被研究人员用作模型生物。深度学习是指一种可教的、多层次的人工智能,其灵感来自于人脑发现模式和解释数据的功能。

图片基于颜色与语义分割的性能

这种推动力最初来自 GMI 研究员 Niklas Schandry 自己的表型瓶颈,当时他发现自己面临着 150,000 张植物图像进行分析,作为研究的一部分,以了解不同类型的土壤如何影响植物的生长方式。现有的图像分析程序可以快速处理图像,但只能识别植物的绿色区域。他解释说,自从Schandry的研究发现某些土壤类型会导致植物变成黄色和棕色以来,这种限制就成了一个问题。
通过成千上万的图像来识别哪怕是一小组植物特征,也很容易让植物学家花费数周或数月的时间。「这是一项非常枯燥的任务,很难可靠地完成。」 Schandry 指出。
然后 Hüther,Schandry 在 GMI 的同事,碰巧读了一篇Google AI关于图像语义分割的博客文章,它为图像中的每个像素分配了一个描述性标签。幸运的是,谷歌公开了语义图像分割模型,因此 Hüther 开始玩弄代码。最终,他通过教授软件如何识别拟南芥标本,改变了植物表型编码的目的。「一开始有很多尝试和错误,但最终我想出了如何把它变成一个端到端的管道,其他研究人员也可以用来分析他们的图像。」Hüther 说。
那么,ARADEEPOPSIS 能为研究人员节省多少时间和精力呢?
使用深度学习方法,ARADEEPOPSIS 可以准确分析拟南芥的玫瑰花结——从头顶观察时植物的圆形叶子排列——无论植物的颜色如何变化。对于许多植物学家的工作来说,重要的是ARADEEPOPSIS 可以可靠地区分健康和不健康的叶子。该程序还考虑了植物外观、图像质量和背景成分的变化。
那么,ARADEEPOPSIS能为研究人员节省多少时间和精力呢?相当多。
Hüther 估计,根据托管它的计算机,ARADEEPOPSIS 可以在一天内分析 100,000 张图像,其中包括从每张图像中提取总共 78 个与表型相关的参数。他说,「如果一个人需要 10 分钟来识别一张图像的 78 个表型参数,那么这个人将需要每周工作 40 小时持续大约八年才能完成对 100, 000 张图像的分析。」
Hüther 指出:「并不是说任何头脑正常的研究人员都会承担这样的工作量。已经存在对大量植物图像进行自动表型分析的程序,包括由圣路易斯的 Donald Danforth 植物科学中心开发的开源软件 PlantCV。然而,PlantCV 要求用户具有一定的计算机编程专业知识。」
「我们的主要目标之一是构建方便且易于使用的东西,因此我们专注于完全自动化,这是机器学习方法使我们能够实现的目标,」 他说。ARADEEPOPSIS 「只需要输入植物图像,并返回一个相当大的表格,其中包含测量值以及结果的视觉演示,从而可以快速轻松地进行质量控制。」
Hüther、Schandry 和 GMI 的两位同事以及德国马克斯-普朗克发育生物学研究所(Tübingen)的一位同事于 2020 年 12 月在《The Plant Cell》上发表了一篇关于开发 ARADEEPOPSIS 的文章。2020 年初,他们在Github上公开了源代码的第一个版本。
图片
ARADEEPOPSIS 是一种软件工具,植物研究人员能够以高度并行化、高吞吐量且易于使用的方式从图像数据中对植物生长、生物量积累和衰老进行非侵入性评分。
它建立在已发布的卷积神经网络 (CNN) DeepLabv3+之上,该网络服务于语义图像分割任务。该模型的预训练检查点已使用手动注释的不同年龄拟南芥植物的顶视图图像进行训练。
图片ARADEEPOPSIS工作原理示意图
广阔应用前景
Schandry 说,「目前,ARADEEPOPSIS 被配置为分析拟南芥植物和同一植物家族的其他成员,但可以训练机器学习程序来分析其他类型的植物并适应其他研究人员的需求。他说,训练 ARADEEPOPSIS 是一项非常耗时的任务,其中包括教授机器学习程序区分『绿色』、『非绿色』和『部分绿色』。」
《The Plant Cell》的助理专题编辑 Anne C. Rea 在为该杂志撰写的《ARADEEPOPSIS 概述》 中写道:「ARADEEPOPSIS 未来的潜在应用可能是广泛的。ARADEEPOPSIS是可定制的,比现有工具更准确。它还具有高度的通用性,因为它可以处理大量不同质量和背景构图的不同图像,并执行各种不同类型的测量。」
Schandry 和 Hüther 也在考虑未来的可能性。Schandry 说:「希望开发 ARADEEPOPSIS 的移动版本,这对植物学家在该领域非常有用。」
「我非常渴望看到这将导致什么,希望超越模型植物拟南芥,即使这意味着我们必须为该软件找到一个新名称。」Hüther 补充道。

论文链接:https://academic.oup.com/plcell/article/32/12/3674/6118590

软件链接:https://github.com/Gregor-Mendel-Institute/aradeepopsis

参考内容:

https://daily.jstor.org/botanists-use-machine-learning-to-accelerate-research/

https://www.jstor.org/stable/newphytologist.207.4.950?mag=botanists-use-machine-learning-to-accelerate-research&seq=1#metadata_info_tab_contents

https://www.jstor.org/stable/25665205?mag=botanists-use-machine-learning-to-accelerate-research&seq=4#metadata_info_tab_contents

https://www.jstor.org/stable/43922248?mag=botanists-use-machine-learning-to-accelerate-research&seq=1#metadata_info_tab_contents

https://www.jstor.org/stable/26389844?mag=botanists-use-machine-learning-to-accelerate-research&seq=1#metadata_info_tab_contents

https://plantcv.danforthcenter.org/

理论植物表型分类AI
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

暂无评论
暂无评论~