准确率高达 87.5%!AI 准确锁定腹泻「源凶」竟然靠它?

就餐后意外腹泻,是大家生活中都有的遭遇。导致这种现象发生的原因之一便是食物生产过程中的沙门氏菌污染。沙门氏菌是腹泻病全球四大病因之一。不幸中招,不但扫兴,对身体健康也有影响。一项最新的机器学习技术,将让我们在预防和应对沙门氏菌的战场上更加得心应手。

佐治亚大学食品安全中心的助理教授邓翔宇博士利用了机器学习中的随机森林分类方法,成功地使AI辨别沙门氏菌的来源。在沙门氏菌病疫情中,迅速识别细菌来源有助于疾控部门确认食品污染源头,并采取相应措施控制疫情发展。这项研究成果发表在了最近一期的《Emerging Infectious Diseases》期刊中。

▲沙门氏菌(图片来源:Pixabay

沙门氏菌是一种普遍存在的细菌,其种类多达2500余种。由沙门氏菌引致的沙门氏菌病会使人出现腹部疼痛、腹泻、恶心、呕吐等症状。尽管大多数情况下患者的病症较轻微,可以很快自愈;但是在某些情况下,沙门氏菌仍可能引发严重症状,甚至导致死亡。沙门氏菌会出现在肉类和蔬菜等多种食品中,并可在整条食物链中蔓延。分辨肉禽蛋的沙门氏菌比较容易,因为其来源就是动物本身;而分辨蔬菜、花生酱等植物类食物中的沙门氏菌就不难么容易了。

沙门氏菌最常见的来源有猪、牛、家禽、野生鸟类。由于基因变异和族群的原因,同一来源的沙门氏菌会有相同的基因特性。邓翔宇博士团队利用了机器学习的方式,让AI学习了1400多种鼠伤寒沙门氏菌(Salmonella Typhimurium)的基因组序列,并通过随机森林分类的方法辨别不同沙门氏菌的基因特性。鼠伤寒沙门氏菌是在美国最常见的沙门氏菌种类,并导致了美国大多数的沙门氏菌污染事件。

AI这次也没有让人失望。研究结果表明,AI的学习效果非常好,对于沙门氏菌来源的辨别准确率达到了87.5%。研究人员给出了美国过去20年间八次沙门氏菌病疫情的细菌样本,AI成功地识别了其中七次的细菌源头。同时,AI辨别禽类和猪来源沙门氏菌的能力要更优秀一些。而唯一失手的一次则是因为那次导致疫情的沙门氏菌同时存在于多种哺乳动物中,迷惑了AI。

▲蔬菜也可能被沙门氏菌污染(图片来源:Pixabay

辨别沙门氏菌来源对于防治沙门氏菌病有很重要的作用。以往的疫情中,疾控机构需要回访感染细菌的患者,并通过对比他们的进食历史来分析沙门氏菌可能的来源。这样的过程需要持续很长的时间,采取措施时可能已经错过了疫情爆发的高峰期。而利用AI直接通过细菌的基因组序列来辨别可以立即得到结果,从而让疾控机构有更充足的时间应对疫情。

研究人员还发现畜牧业的工业化发展可能是导致沙门氏菌传播的重要原因之一:他们发现家畜来源的沙门氏菌在20世纪90年代间迅速广泛传播,而那段时间的畜牧行业恰好处于工业化高速扩张的时期。

不过现阶段的AI识别沙门氏菌来源的能力还有待提高。AI暂时只能识别最广泛传播的沙门氏菌种类,即鼠伤寒沙门氏菌。而且AI也不能辨别猪、牛、家禽、野生鸟类之外的沙门氏菌来源。同时存在于多种动物的沙门氏菌也暂时不能被AI正确识别。邓翔宇博士也表示,现在的进展已经让我们在阻止沙门氏菌传播上有了一些新的方向,但完善AI的功能仍然任重道远。

参考资料:

[1] Machine learning could help figure out what pooped on your produce. Retrieved Dec 18, 2018 from https://www.theverge.com/2018/12/12/18137973/salmonella-diarrhea-food-poisoning-cows-pigs-chickens-birds-cdc

[2] 沙门氏菌(非伤寒). Retrieved Dec 18, 2018 from https://www.who.int/zh/news-room/fact-sheets/detail/salmonella-(non-typhoidal)

[3] Zhang, et al., (2019). Zoonotic source attribution of salmonella enterica serotype typhimurium using genomic surveillance data, United States. Emerging Infectious Diseases, DOI: 10.3201/eid2501.180835

药明康德AI
药明康德AI

药明康德微信团队专业打造。当人工智能遇上大健康,带你看全AI时代的智慧之光。

专栏二维码
产业随机森林医疗健康
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

随机森林技术

在机器学习中,随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。而"Random Forests"是他们的商标。这个术语是1995年由贝尔实验室的Tin Kam Ho所提出的随机决策森林(random decision forests)而来的。这个方法则是结合Breimans的"Bootstrap aggregating"想法和Ho的"random subspace method" 以建造决策树的集合。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

推荐文章
暂无评论
暂无评论~