读芯君来源

人工智能浪潮中的「虫虫特工队」

一年前,孙钰站在内蒙古黑里河自然保护区的一大片林场前极目远眺时,无论如何也想不到,他和他的团队会在一年后完成中国林业研究领域的一项从0到1的“创举”。

AI技术,正让一些普遍认知中的“冷门”领域变成大热门。

以前,林业专家们需要花费大量的时间在全国各地的林场进行周期性巡查,而因为有了AI技术的加持,现在只需要坐在北京的办公室就可以掌握最新的情况。

这一切都源于一个叫做AI识虫的智能虫情监测项目。

作为北京林业大学智能感知实验室主任的孙钰坚信,把通用技术应用到专业领域大有可为,比如地质、林业等等。直到一年前参与了森林病虫害的实地监测工作后,他觉得是时候行动起来了——用AI来拯救中国的森林。

AI真的能够拯救森林吗?

用AI拯救森林,实现起来还真不是一件容易的事儿。

这得先从一只小虫子说起。

别看这只小虫子不起眼,它叫红脂大小蠹,是一种入侵我国并且危害超过35种松科植物的蛀干害虫。自从20年前在中国首次发现以来,它的危害面积不断扩大,枯死的松树达600多万株。

而要想监测、预防这种杀伤力如此大的害虫,在传统林业中,就得依靠林业专家们定期翻山越岭地去巡查那些事先在林区分布好的昆虫诱捕器。一旦发现不及时,就会导致虫灾蔓延。

要说这有多苦,孙钰和他的团队深有感触。

“当时,我跟着我们学校林学院的一支调研队伍去实地考察,为了掌握林区的情况,大部分时间都花在了路上。”孙钰说。

“一个暑假一般也只能把一个林区跑上一遍。”林学院研二的学生李嘉乐说。

但所有的困难并不是仅靠吃苦就能解决。由于鉴别诱捕器中的昆虫需要非常高的专业知识水平,基层的林场都面临人才缺乏的窘境。

如何能解决这些问题?

从内蒙古回来,孙钰和他的团队开始筹划一盘大棋,希望能将人工智能赋能林业,为虫害防治提供不间断的监测和预报,减少病虫害造成的损失。

一年后,基于百度PaddlePaddle深度学习框架的AI识虫项目原型机研发完成,开创了中国林业研究领域的先河。

这个项目最大的优势,就是可以实现远程控制,专业人员无需深入林场就可定期收回数据,甚至可以将数据传回的频率提升到半小时一次。这不仅大大提升了工作效率,数据的收集和分析研究也更加地精准。

明年,AI识虫项目就将从实验室走向林场,开始试用。

艰难试错:AI落地没那么容易

时间再回拨到一年前。当时,用AI来解决一只小虫子的问题,听上去很容易,但真正实施起来,孙钰才发现没有那么简单。

他们需要解决的问题实在不少:一是虫子太小,辨别难度大。必须依靠具有较高专业水平的老师和研究生来完成鉴别;二是林区面积大、地形复杂,不到十个人的团队,一个暑假也只能跑一个林区,想要监测整片树林实在太难了。

“要想实现AI识虫,最大的难点就是人工智能模型的轻量化。”孙钰说。

由于地处偏僻,山区较多,所有的林区都面临传输信号非常差的问题。

“一般的识别方式,都是将图片拍下后上传到云端服务器,识别出结果后再返回到本地,但林区的信号强度,基本不具备能传送图片的能力。”

所以孙钰决定,要在诱捕器的嵌入式设备上完成离线识别,再将识别结果以文字的形式发回后方统一的监控平台。

这意味着这个模型不仅要足够轻量,而且还要足够精确。

孙钰(右一)在实验室指导学生进行模型调试

为了解决这个问题,孙钰进行了多次的尝试,也接触了国内外的多个AI开放平台,最终,他选择了百度的深度学习开源平台PaddlePaddle。

说起与百度的合作,源于一个“餐桌上的约定”:在一个百度校企合作交流晚宴上,孙钰随口提到了他们正在做的AI识虫项目。百度相关负责人马上兴奋地说:“可以用我们的深度学习框架试一试呀!”孙钰立刻在餐桌上打开手机,把项目的小视频发给了百度的工程师。这个创意当时就吸引了百度工程师的兴趣。无心插柳,合作就在餐桌上确定下来了。

对孙钰来说,这顿饭吃得很开心。“事实证明,PaddlePaddle很好地实现了我们的创意。”

易学,好用——这是孙钰对PaddlePaddle的评价。

作为百度旗下深度学习开源平台,PaddlePaddle可以提供Neural Machine Translation、推荐、图像分类、情感分析、Semantic Role Labelling等任务,大部分任务可直接套用。

“中国的学生在学习PaddlePaddle时是有很大的语言优势的。另外,我们利用PaddlePaddle提供的一些经典模型框架,在此基础上进行了轻量级的优化,从而寻求一个时间和精度的平衡。这大大缩短了研发的周期。”

孙钰团队的项目对林业发展来说,颇有些里程碑的意味。AI识虫,将林业病虫害的监测、调查工作,从外业基本变成了内业。

以前,林业专家们需要花费大量的时间在全国各地的林场进行周期性巡查,而现在只需要坐在北京的办公室就可以掌握最新的情况。

“最重要的是有鉴别水平的专家的需求量下来了。专家可以远程操作,在北京就可以把防治措施告诉各地的基层人员。再也不是苦力活了。”孙钰很自豪。

技术的力量:AI是如何成为“识虫大师”的?

与AI人脸识别一样,AI识虫的本领同样高强。

但越强的AI能力,需要基于越充分的前期数据收集。孙钰的实验室用了大量的时间来进行这一任务。

在这个不到10人的团队里,既有计算机的专业人才,也有林学的专业研究人员。

周焱(右一)和团队成员在实验室

信息学院研二的学生周焱就参与了采集数据的工作。“由于虫子的体型非常小,所以我们需要不断地改进机器学习模型,提高对虫子的识别率。另外,诱捕器里除了害虫之外,还会有其他飞虫、树叶等等,所以我们必须解决这种复杂背景下的虫子识别问题。”

为了完成周焱所说的“提高识别率”,这个团队里还吸纳了专业的林学研究的学生,以便能提供足够的专业知识支撑。

李嘉乐就是其中之一。诱捕器在林区的密度该如何设置,不同虫子间有哪些细微的差别,诱捕器里不同种类的虫子该如何鉴别……这些任务都需要交给像她一样的专业人士来完成。

除此之外,还少不了工业界的力量加持:百度PaddlePaddle工程师也针对模型的建立和完善,进行了不少工作。

那么,这个“识虫大师”的工作原理是什么呢?

AI识虫智能虫情监测项目原理及简介

通俗来说,这个系统是利用深度学习算法来建立蠹虫检测模型,再将模型部署到诱捕器内的嵌入式设备上,之后通过诱捕器内的高清摄像头定时拍摄捕捉到的虫子的影像,然后使用PaddlePaddle C-API来离线检测这些虫子是否为蠹虫,有多少只蠹虫等等,最后将检测结果通过MQTT协议上报至监测服务器。

监测服务器接收到消息后,将检测到的虫口数写入MySQL数据库;并利用Django API启动服务,读取数据库中的蠹虫检测结果,最后在百度地图上显示相应地点的虫口数。

而这些最终的检测结果,就会被坐在操作台前的专业人员获知,从而再进行下一步的部署工作。

通过分布在整个林区的智能监测终端,监控人员每半小时就能得到整个林区的规律性数据,而这曾经是李嘉乐和她的同学们一周的工作量。

可以说,AI识虫系统在学术界和工业界的“双剑合璧”下,最终成为了集大成者。

AI+林业:是剑走偏锋还是特色之路?

相比当下大热的无人驾驶、AI金融、AI医疗等等领域,“AI+林业”似乎显得有些剑走偏锋。但孙钰并不这么看。

他所在的林业大学,是中国林业研究领域的领头羊。那么林业大学里的信息学院,该如何寻找自己的特色之路?这是信息学院院长陈志泊和他都在关心的事情。

北京林业大学信息学院院长陈志泊在在2018北京智慧园林高峰论坛会议上作专题报告

“我们不是清华的信息学院,也不是北大的信息学院。在林大的土壤和环境下,我们必须有自己特色的东西。”敏锐地意识到了AI技术对未来世界的影响力后,陈院长对于学院的发展有着自己的规划

这些年来,陈志泊和孙钰做的,就是在寻找信息技术和林学的交叉融合。林业信息化、智慧林业……在这些细分领域里,他们做出了特色,也找到了自己的优势。

在陈志泊的牵头推广下,北林信息学院正在进行的林业信息化项目大大小小有二三十项,AI识虫项目正是其中的佼佼者。

“如果让我们林大去跟清华甚至MIT、斯坦福去拼人脸识别,那肯定是拼不过的。我们要做的,就是让林业、园林规划等等可能不学编程的专业,也能用上AI。”有了陈院长的支持,孙钰更是充满了信心。

北京林业大学的这一尝试,让AI的落地场景有了更广泛的领域,也为AI技术戴上了一丝温情的味道:在AI时代,即使是与日常生活相距较远的传统领域,也能找到独特的前景。

这与百度CEO李彦宏在今年百度AI开发者大会上提到的观点——“今天,无论你在哪里,无论你是谁,都能够通过百度平等便捷地获得AI能力”不谋而合。也许,这也是林大和百度能一拍即合的根本原因。

林大信息学院和百度的交流,最早始于教育部搭建的校企协同育人项目平台。在这个平台上,信息学院和百度开设了产学研合作的试点,之后便开始了深度的交流合作。在百度AI技术生态部高级运营经理谢梦看来,人工智能应用要想落地,和产业的紧密结合必不可少。

10月13日,在2018北京智慧园林高峰论坛会议上,谢梦详细阐述了AI虫情监测项目。

“目前,政府机构以及一些行业领头的研究机构拥有大量的数据,但是对数据的收集和处理是非常困难的。就像在林区,想要收集全部的数据需要漫长的周期,但通过AI的帮助,整个林区的数据就可以实时掌控。百度在其中的作用,就是提供先进的算法和深入的研究。”

林大想要推出这个项目的迫切之情非常容易理解,那为什么百度会选择做这件事情?

其实,虽然现在人脸识别等AI应用的方向非常火热,但实际上,这种通用性的人工智能应用对于很多产业来说只是一个附加功能,并没有真正触及产业发展的根本。

“我们最需要的就是产业中的人,因为他比任何人都更加了解产业的需求是什么。所以,我们期待有更多产业方向的学校、工作者和我们一起来推进产业着实往前发展。”谢梦说。

AI时代,谁在掌握未来?

虽然无法准确预测人工智能发展的未来,但有一点是明确的:我们都已经身处于由AI引领的工业革命4.0的浪潮中。谁能找到实际的AI落地场景,谁就能够最终脱颖而出。

之所以在智慧园林高峰论坛上大力推荐AI识虫项目,谢梦有着充分的理由:在过去很长一段时间,百度一直把技术作为信仰,追求着技术的先进性。但是,在人工智能的浪潮中,一切都在向前发展,未来触手可及。如何将技术与产业结合在一起,是人工智能时代需要去探索和发展的事情。AI识虫项目为什么能做成?就是因为它真的找到了行业的痛点,也真的满足了行业的需求。

同样对AI识虫项目的发展提供了大力支持的陈志泊院长,则有着另外一种角度的解读:大学究竟要培养什么样的人才?自然是对社会真正有用,也真正具有竞争力的人才。而能够真正了解业界前沿知识的人才,才是有竞争力的人才。

从这个角度来讲,百度所采取的AI开放生态策略颇有“心机”也充满了前瞻性——它既与可以将AI应用于实际场景的学术界、产业界进行了零距离接触,又通过开源平台吸引了大量的优秀人才。

百度AI技术生态部总经理喻友平曾经表示,深度学习对整个AI领域有着重要的影响力,在国外巨头抢占深度学习技术开源先机的情况下,中国必须要有自己的深度学习平台,才能巩固自身人工智能技术的核心竞争力。而PaddlePaddle成为了一架重要的桥梁,既推动了学界研究者的研发工作,也促进了中国深度学习专门人才的培养。

这样的提前布局,无疑掌握了未来的人才,自然也取得了掌握未来的先机。 

转载来源:读芯君

PaddlePaddle
PaddlePaddle

PaddlePaddle是百度独立研发的深度学习平台,易用,高效,灵活可伸缩,可支持海量图像识别分类、机器翻译和自动驾驶等多个领域业务需求,现已全面开源。

产业AI识虫智能虫情监测项目林业监测深度学习
2
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

神经机器翻译技术

2013 年,Nal Kalchbrenner 和 Phil Blunsom 提出了一种用于机器翻译的新型端到端编码器-解码器结构 [4]。该模型可以使用卷积神经网络(CNN)将给定的一段源文本编码成一个连续的向量,然后再使用循环神经网络(RNN)作为解码器将该状态向量转换成目标语言。他们的研究成果可以说是神经机器翻译(NMT)的诞生;神经机器翻译是一种使用深度学习神经网络获取自然语言之间的映射关系的方法。NMT 的非线性映射不同于线性的 SMT 模型,而且是使用了连接编码器和解码器的状态向量来描述语义的等价关系。此外,RNN 应该还能得到无限长句子背后的信息,从而解决所谓的「长距离重新排序(long distance reordering)」问题。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

暂无评论
暂无评论~