李艳瑜作者

首个糖尿病知识图谱问世,天池大赛成果助力“瑞宁助糖”优化用药推荐

近日,由阿里云与上海瑞金医院、阿里健康联合举办的新一轮天池大赛——“瑞金医院MMC人工智能辅助构建知识图谱大赛”决赛结果颁布,来自哈尔滨工业大学、北京大学、江南大学年轻的学者团队在近2000名开发者中脱颖而出,分列前三名。

人工智能此类前沿技术领域,拥有25万开发者的天池平台集众人之智慧产出了怎样的结果?以技术为实力比拼的比赛成果又如何与企业、医院结合应用到实际?在本次发布的大赛成果转化产品——国内首个“基于机器智能的糖尿病领域知识图谱”中,我们找到了答案。

内分泌医生缺口大,机器可替代重复性工作

“我的爸爸就是一名糖尿病患者,最初参赛是因为他,我希望能够利用我所掌握的技术,帮助到更多像他一样的糖尿病患者。技术的存在本身不该只为炫技,应该为全人类做贡献。”在谈到参赛初衷时,一位参赛的开发者表示。

根据IDF发布的第八版全球糖尿病概览中显示,2017年中国1.144亿糖尿病患者人数位居全球第一,即便按照1个医生管理1000人的需求推算,也需要10万医生。而如今,我国内分泌医生远远达不到10万,导致很多糖尿病患者不能享受到较好的慢病管理服务,而不同层级的医疗机构,对糖尿病慢病诊治水平参差不齐,也影响了糖尿病患者的治疗体验。

为了能够以最高的效率达到更好的糖尿病管理效果,中国工程院院士、上海交通大学医学院附属瑞金医院副院长、国家代谢性疾病临床医学研究中心主任宁光发起的国家标准化代谢性疾病管理中心(MMC)采用一体化的诊疗流程,将糖尿病管控做到标准化。 

MMC采用1+x模式,即一家MMC的中心医院与它周围的多个社区医院相联系,形成“从国家级MMC中心到MMC中心医院再到多个社区卫生中心”的病人双向转诊就医模式。因此,医生数量尤其是基层医生数量不足、专业水平参差不齐等问题,就成为影响糖尿病患者的治疗康复一大掣肘。

宁光院士表示:“基层医生尤其是全科医生,需要处理很多种疾病,往往无法达到“术业有专攻”。如何让基层医生也能够像专科医生那样处理这些疾病的状况,这是MMC需要解决的非常重要的问题。” 

此外,医生大量的从事重复性的工作,长期的疲劳容易造成漏诊、误诊,“如何让已经形成重复性劳动的事情,更多地让机器完成,而让医生更多考虑疾病中不规律的情况,是疾病治疗很重要的部分。”

首个糖尿病知识图谱出炉,助力瑞宁助糖优化用药方案

2018年9月,阿里云天池大赛就发起了用人工智能辅助构建糖尿病知识图谱的挑战。在过去半年时间里,吸引了中国、美国、日本、丹麦、新加坡等8个国家和地区共1629支队伍、1817名开发者参与。

其中,吸引的团队除了北京大学、浙江大学、哈尔滨工业大学、新加坡国立大学等国内外知名高校,还不乏国内众多企业的身影,在产业内也受到极大的关注。

大赛主办方瑞金提供与糖尿病相关的学术论文以及糖尿病临床指南。第一赛季课题为“基于糖尿病临床指南和研究论文的标注构建”,要求选手在学术论文和临床指南的基础上,做实体标注;第二赛季课题为“基于糖尿病基于糖尿病临床指南和研究论文的实体间关系构建”。选手将从中抽取实体之间的关系。通过初赛、复赛与决赛答辩,综合线上提交结果评分和线下答辩角逐冠军。 

赛题组通过标注工作,形成国内糖尿病领域首个文本标注数据集合,标注中文实体近19万,最终,开发者基于糖尿病相关教科书、研究论文,通过高效的算法,进行文献挖掘并构建知识图谱,与瑞宁助糖深度融合,加速产品迭代。

时间拉回到2016年,宁光团队与阿里合作,首次发布“瑞宁助糖”,这是一款糖尿病医生AI助手,它由经验模型和知识模型的两部分机器学习构成的软件系统。

其通过人工智能深度学习的方式,以1000多份真实的糖尿病病例,加上300位的糖尿病医生的经验形成经验模型,同时,融合各种糖尿病指南和国内外文献检索数据库形成知识库,以及综合糖尿病可能导致的血脂异常、高血压、肥胖等100多种并发症的发病原理和标准化临床数据,进而对为医生给出诊断建议。

在经历过数次的迭代之后,此次应用天池大赛知识图谱构建成果的“瑞宁助糖”,三年后又迎来了一次重要的转型升级。

阿里云算法专家顾斐在展示成果时表示,知识图谱的作用在于以下三点:一是其能够电子病历、科研论文这类非结构化数据做成结构化,“这是作为下一步人工智能研究非常必要的步骤”;二是知识图谱能整合各类文献资料,将实体关系抽离出来;三是构建知识图谱的过程为后续人工智能辅助诊断和智能用药推荐提供了坚实的基础。

 知识图谱示例,企业供图

以实际操作为例,首先在“瑞宁助糖”界面输入患者相关的信息及症状后,对血糖血脂等测试结果做出糖尿病及其并发症的判定;第二步,给出供医生参考的治疗建议,基于海量医学指南和学术论文,提供标准化糖尿病用药建议;最后,点击具体推荐药物,便可链接到以该药物为中心的知识图谱,包括药品名称与疾病、药品名称与副作用等实体关系。此外,界面右侧会显示与药物相关的最新研究文献,并随着数据库的更新而实时更新。

如在输入某个病历后,出现Ⅱ型糖尿病的用药推荐,其中,包括二甲双胍或阿卡波糖,在点击阿卡波糖后,会出现以“阿卡波糖”为中心的知识图谱,在实体关系中,就包括“腹泻”这一副作用,而右侧同样会显示与“阿卡波糖”相关的文献,给医生形成参考。

模拟专家演绎,辅助基层医生科学决策

知识图谱本质上是一种语义网络。 其结点代表实体(entity)或者概念(concept),边代表实体/概念之间的各种语义关系。

 阿里巴巴达摩院医疗健康负责人谢宣松认为:“人理解知识很多是单线条的,而知识图谱是一张‘交叉的网’,本身关系就很复杂,又有很强的专业性,每一条文本都跟人的生命健康紧密相关,又包含了海量的数据,因此在构建医疗知识图谱的过程中,每一个环节都有其特殊的难点。”

要构建医学的知识图谱,尤其是糖尿病领域的知识图谱,其难点在于:1.在临床中,大量的医疗文书是以文本形式存在,不仅海量且非结构化,提升了文本处理的难度;2.糖尿病对应的慢病是周期性很长的疾病,每个阶段不同症状对应的知识点可能是有所区别的,另外,糖尿病是并发症最多的慢病之一,每一个并发症都会对应不同的只是体系,导致整个知识图谱构建的内容和规模就会远远大于一般的疾病。

通过对近19万数据的标注,糖尿病知识图谱的构建促使瑞宁助糖实现结构化能力升级,并有效帮助医生修正给病人的用药方案,优化药物方案。

此外,在医生培养方面,除了对已有文献的知识进行总结之外,通过算法,瑞宁助糖还能挖掘新的知识,从而建立新的关系。如果有新的临床研究出现,通过人工智能的标注和知识图谱的贡献,将有可能发现潜在的关系,从而帮助医生实时更新医学知识。

阿里健康医疗大脑负责人范绎表示,计算机能够辅助知识的获取和知识判定的过程。相当于建了一个更加好用的“医学字典”,而这个“医学字典”的载体是计算机,计算机又通过自己的判定呈现出文本的形式。就像医生用自己的知识演绎出对疾病的判定,以相同的方式呈现。

宁光院士表示,构建糖尿病的全面知识图谱,有助于形成糖尿病预测、干预、监控、教育等闭环管理,能最大程度还原专家在治疗糖尿病时的用药思路,辅助基层临床医生做出更科学的决策,提升用药技能,将进一步提升就诊效率、降低就医门槛。同时,对于糖尿病医学科研也有重大意义。

“医学的病史资料如何能被很好的使用,很重要,但之前我们做得并不好,如果能够在现有资料的基础上利用起来,在帮助医生成长和诊疗方面,有重要的意义。”

据悉,升级后的“瑞宁助糖”预计3月份首先在瑞金医院使用,5月份正式上线,并进一步推广到全国,服务更多的医生及患者。

——“请问瑞金医院的数据能尽快公开应用于学术研究吗,迫切期待,感谢!”

在决赛结果颁布的三个月前,有网友在该比赛的论坛中,发表了上述的帖子。可见对于数据集的开放,早有需求。此次天池大赛标注的近19万中文实体,是人工智能在医疗领域应用最为基础和关键的数据集,具有极大的科研和应用价值,有望成为糖尿病人工智能领域的标准。

“我们的宗旨是始于比赛,终于生态,希望通过我们的平台能够搭建生态环境,来对接我们医学工作者和人工智能的开发人员。”顾斐如是说。

此外,他透露,近期还会举办多场医疗相关的天池大赛,作为一个面向全球人工智能专家及技术爱好者的开发者社区和众智平台,目前天池平台上活跃着全球范围内超19万名技术爱好者、200多家大数据领域的创新创业团队,到2020年,该平台或将培养30万位AI工程师。

“我们希望可以往更垂直化的方向发展,包括一些创业公司,他们慢慢开始医疗和人工智能相结合方向的研究或者是进行创业。”届时,会有更多的比赛成果转化为实际应用,协助医生提高临床诊疗的效率,成为更好的医疗工具。

动脉网
动脉网

专注医疗产业服务平台

产业知识图谱
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

语义网络技术

语义网络常常用作知识表示的一种形式。它其实是一种有向图;其中,顶点代表的是概念,而边则表示的是这些概念之间的语义关系。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
推荐文章
暂无评论
暂无评论~