医渡云与合作伙伴单位在EMNLP-IJCNLP 2019 医疗文本分析国际公开评测中获得冠军

2019年11月3日至7日,自然语言处理知名会议EMNLP(Conference on Empirical Methods in Natural Language Processing)和IJCNLP(International Joint Conference on Natural Language Processing)在香港举行。哈工大智能计算研究中心,医渡云人工智能实验室与中山大学中山医学院共同组队参加了由BioNLP组织的PharmaCoNER国际公开评测,并取得冠军。本次评测任务的成绩也是医渡云人工智能实验室利用医疗文本处理基础技术在跨语言泛化能力上的一次验证。

此次评测从2019年3月26日开始,6月25日结束,主要面向西班牙语的临床医疗文本,包括临床医疗实体识别和标准化两个子任务,吸引了来自中国、西班牙、芬兰、法国、印度、日本、罗马尼亚、美国、英国等国家的著名高校[包括曼彻斯特大学、麻省大学、图尔库大学、法兰克福大学、马德里卡洛斯三世大学、哈尔滨工业大学(深圳)等]和企业科研团队(包括日本的国立先进产业科学技术研究所等)的30多支队伍参赛,共提交100多份结果。

医渡云人工智能实验室主任闫峻博士带领来自纽约大学、卡耐基梅隆大学、清华大学等知名高校的几位医渡云研究员,与哈工大智能计算研究中心汤步洲副教授带领研究生组成的团队,研发出基于多粒度信息融合的深度学习系统,通过对自然语言进行多层次的理解,在临床医疗实体识别任务上获得性能第一名的好成绩,在临床医疗实体标准化任务上也获得性能排名第三名的成绩。

在医疗文本命名实体识别系统中,团队采用了预训练的BERT模型,加入character级别的表示、词性信息、词形信息等。最终F1值达到0.9105,以明显优势获得第一名。团队在临床医疗实体标准化任务中,使用编辑距离过滤候选标准化实体,然后采用基于双向长短时记忆网络的最大池化匹配模型[2],对过滤后的候选实体进行匹配。最终F1值达到0.8391,获得第三名。

作为医疗人工智能企业,医渡云利用人工智能技术将杂乱无章的信息变成结构化的、标准化的、可以计算的信息,利用人工智能技术自动化地挖掘出可用的信息,然后构建相应的智能模型,最终落实到真正的应用,并基于权威循证医学知识,构建了基本的疾病知识图谱骨架,并通过真实世界临床病历信息认知学习,得到疾病与症状、检查、检验、用药、手术、体征等不同的关联关系,深化了整个医学知识图谱,从而应用于临床决策支持系统(CDSS)。

医渡云在无形中已经帮助政府、医疗机构以及用户解决了很多的问题,为人工智能时代赋能。自2013年成立以来,医渡云为全国700余家医疗机构、多个区域政府和部委相关部门提供人工智能平台服务,与清华大学、南京医科大学、重庆医科大学、山西医科大学等众多高校合作,建立多个医疗人工智能研发基地。医渡云利用人工智能技术,为中国的医学研究、医疗管理、政府公共决策等提供智能平台服务,为中国医疗信息化建设提供可靠的支撑与保障。作为医疗人工智能发展的先行者和探索者,目前,医渡云建设出40余种疾病标准数据集,并联合专家先后在人民卫生出版社出版了结直肠癌、胃癌、眼科、白血病4个疾病的标准数据集。在过去两年,产出了高质量论文50余篇,其中部分发表在《柳叶刀·肿瘤学》《自然·医学》等学术期刊上。

医渡云作为医疗人工智能企业,以“改善人类与疾病的关系”为目标,利用人工智能推动技术融合、业务融合,打通信息壁垒,充分挖掘医疗人工智能化应用价值,践行健康中国战略,助力提升百姓的医疗健康水平,实现 “数据智能 绿色医疗”的宏伟目标。

[1] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova.“BERT: Pretraining of Deep Bidirectional Transformers for Language Understanding,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), 2019, pp. 4171–4186.
[2] A. Conneau, D. Kiela, H. Schwenk, L. Barrault, and A. Bordes.“Supervised Learning of Universal Sentence Representations from Natural Language Inference Data,” in Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, 2017, pp. 670–680.

产业自然语言处理深度学习纽约大学人工智能
暂无评论
暂无评论~