Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

百度获INTERSPEECH2020竞赛第一AI诊断早期阿尔茨海默症价值巨大

(全球语音研究领域顶级会议INTERSPEECH2020)近日,全球语音研究领域顶级会议INTERSPEECH2020召开,值得一提的是,其中利用口语自动识别阿尔茨海默症的竞赛吸引了包括MIT、首尔大学、德国人工智能研究中心等全球34支队伍参赛;百度研究院89.6%的准确率超越MIT等世界顶级对手,以第一名的成绩摘得桂冠。据了解,百度研究院在竞赛中基于百度知识增强语义理解技术与平台ERNIE做出创新,其模型效果比谷歌BERT更好。百度研究院此次夺冠,不仅为阿尔茨海默症这一广泛存在的顽疾提供了早期诊断的更多可能性,同时也证明了语言模型乃至人工智能在医疗领域的重要价值,为行业实现“AI+医疗”提供了全新的范例和思路。(INTERSPEECH2020百度研究院夺魁阿尔茨海默症的竞赛)阿尔茨海默症即所谓的“老年痴呆”,这是一种起病隐匿的进行性发展的神经系统退行性疾病,患者会出现记忆障碍、失语、失用、失认、执行功能障碍以及人格和行为改变等全面性痴呆症状。随着老龄化社会到来,愈多的家庭深受阿尔茨海默症困扰,严重降低老年人的生活质量。医学界认为,阿尔茨海默症的早期诊断非常重要,及时的干预和治疗可以延缓疾病的发展甚至治愈。

INTERSPEECH是由国际语音通信协会ISCA组织的语音研究领域的顶级会议之一,此次大会正聚焦于阿尔茨海默症举办识别竞赛,探索用AI在早期来识别和诊断阿尔茨海默病情的可能性。其中,百度研究院提出的方法是利用语言中的停顿信息,用包含停顿编码的语音转写对Transformer语言模型进行微调,并对多次微调结果做多数表决。

经研究,停顿是阿尔茨海默症的一个重要特征。停顿信息不仅包括停顿的时长和频率,同时还包括停顿出现的位置,比如哪两个词之间或者哪种句法结构中出现停顿。基于此,百度研究院的研究表明在转写中加入停顿编码,利用Transformer语言模型中的注意力机制学习数据中的停顿信息,可有效识别阿尔茨海默症。

(图1:停顿编码的流程)在竞赛过程中,百度研究院首先是对语音和转写做强制对齐,根据强制对齐得到的停顿时长对停顿进行编码。在尝试了两种编码,分别包括三种停顿(3p: <0.5s, 0.5-2s, >2s)和六种停顿(6p: <0.5s, 0.5-1s, 1-2s, 2-3s, 3-4s, >4s)之后,百度研究院再在转写中加入这些编码,如上图所示。

(图2:微调的流程)第二步,百度研究院将识别阿尔茨海默症作为语言模型的一个下游任务,用包含停顿编码的转写对预训练的语言模型BERT和ERNIE进行微调,其流程见上图;最后发现,通过微调预训练模型得到的分类结果有较大的不稳定性。为克服这一问题,百度研究院又采用了多次微调并对结果做多数表决,有效提高了算法的稳定性和准确率

此次对阿尔茨海默症停顿特征的研究工作中,百度ERNIE做出了巨大贡献;基于ERNIE,百度研究院算法的识别准确率得到了有效提升。结果(下表)显示结合停顿编码和百度ERNIE语言模型得到的准确率最高,优于只使用转写(0p,不包含停顿),也优于BERT语言模型

(表1:在测试集上的结果)百度文心(ERNIE)是依托百度深度学习平台飞桨打造的语义理解技术与平台,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,为企业和开发者提供一整套NLP定制与应用能力;其中ERNIE预训练模型开创性地将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的新知识,实现模型效果不断进化,如同人类持续学习一样。并且百度还将此项世界领先的NLP技术成果开放给业界,降低了NLP技术的准入门槛,让各大产业都能快速拥有构建和应用文本智能的能力,为产业智能化提供了全新的加速度。

如今,文心(ERNIE)已广泛应用于搜索引擎、信息流、智能音箱等互联网产品中,同时也在金融、电商、媒体、教育等行业中落地,成为推动产业智能化转型的利器。在2020世界人工智能大会上,百度文心(ERNIE)还荣获了最高奖项SAIL奖(Super AI Leader,卓越人工智能引领者)。百度人工智能技术在阿尔茨海默症早期识别和诊断上的应用,既体现了“科技为更好”的核心理念,助力人们享受幸福生活,也证明了人工智能技术向不同领域延伸的巨大价值。

产业百度INTERSPEECH2020
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
推荐文章
暂无评论
暂无评论~