Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

把游戏AI用于疾病诊断,腾讯AI Lab一研究成果登上国际顶会

12月19日,腾讯AI Lab发布其决策智能 AI 「绝悟」的最新成果「绝悟RLogist」,将 AI 深度强化学习技术迁移到病理全片扫描图像诊断领域,在性能接近的情况下,将传统病理阅片效率提升400%。

该研究相关论文被国际人工智能顶级学术会议 「AAAI 2023」接收,代码已开源。

「绝悟」AI 是腾讯将游戏场景与人工智能技术进行融合研究的核心探索之一,此前先后在 MOBA、RTS、3D开放世界(Minecraft)等多类型游戏中取得了业界领先的研究成果,证明了其在游戏复杂环境中较为优秀的决策智能水平。

本次发布的「绝悟RLogist」受启发于「绝悟」在3D游戏环境中进行观测并做出决策的过程,将这些能力迁移至病理阅片场景,提出了基于深度强化学习找寻最优看片路径的方法,并在相关测试数据集中表现出较高的效率,达到业界领先水平。这也代表着「绝悟」成功从游戏场景走向现实世界,朝着解决更多现实世界难题的目标更近了一步。

让AI学习医生决策思维方式

随着技术发展,目前,病理行业正在加速向全数字化、智能化、云端化方向发展,临床科室常常将组织切片进行全片扫描数字化处理,以便医生阅片及管理。

数据显示,显微扫描仪生成的高分辨率图像往往能够达到每个像素0.25微米,每张图像的尺寸经常是几万乘几万像素甚至更高,虽然这能更全面地展现切片信息,却也给医生的阅片带来了更大的压力,他们要从布满密集细胞和组织的超大尺寸图像中,肉眼找到风险的病灶位置并进行判断,“大海捞针”式的工作难度可想而知。

在高清病理图像中,病灶区域可能仅占很小的比例

近年来,随着技术的发展,研究员尝试使用深度学习解决图像/像素级分类和回归问题,对医学图像分析领域作出了很大贡献,然而,全片扫描图像分析对于深度学习仍然具有挑战性。主要挑战来自两个方向:

第一,计算病理学中的病理图像(WSI)具有十亿像素大小的高分辨率,却往往只有一个图像级标签。目前绝大部分的方法都依赖于在高倍镜下对全切片进行密集采样的方式进行特征提取,并对所有采集特征进行信息整合进而实现全片诊断。

第二,这些图像的兴趣点区域(病变区域)往往很稀疏。这带来了诊断相关性弱、数据效率低下等问题。现有的方法大多依赖于多实例学习框架,需要在高倍率下密集采样局部的图像块(patch),增加了计算成本,一张切片往往需要几十分钟来完成计算。这限制了很多潜在的临床应用场景,比如大规模筛查和术中快速评测。

实际上,病理医生在对切片进行判读时,并不需要像这些计算机算法这样依次去观察高倍镜下的每一个角落。病理医生往往先利用显微镜在低倍镜下进行扫片,在高倍镜下确认相关区域,必要时可以灵活切换不同倍镜进行复核,根据经验决策最优的查看路径,以最终完成全片判读并定位到关键病灶。

人类医生会凭经验放大图像,检查可疑区域

「绝悟」团队观察到,病理医生的阅片行为,可以转化为最优路径决策问题,而解决这类问题正是强化学习所擅长的方向。以「绝悟」在Minecraft环境中完成挖木头任务为例,AI首先要环顾四周搜集全局信息(类比病理医生在低倍镜下扫片),然后锁定视角(高倍镜确认),找到木头后执行采集动作(确认病灶),如此往复。

受此启发,「绝悟RLogist」创新性地尝试了一种类似医生病理阅片的决策思路,采用了基于深度强化学习的,找寻最优看片路径的方法,避免了用传统的穷举方式去分析局部图像切块,而是先决策找到有观察价值的区域,并通过跨多个分辨率级别获得代表性特征,以加速完成全片判读。

成果验证:决策提效400%

研究团队选择“淋巴结切片转移检测”及“肺癌分型”两个全片扫描图像的分类任务进行基准测试(TCGA-NSCLC 和 CAMELYON16 WSI 数据集)。结果表明,与典型的多实例学习算法相比,「绝悟RLogist」在观察路径显著变短情况下,能够实现接近的分类表现,决策效率提升400%。

同时,该方法具体较好的可解释性。通过将「绝悟RLogist」的决策过程可视化,有潜力应用于教育性或者辅助性的医疗诊断场景。

据了解,该项研究成果获得了同行审稿人的高度评价。研究员表示,未来团队将沿着两大路径持续优化,一方面,通过引入更强的神经网络结构增强「绝悟RLogist」的表征学习能力,另一方面,使用更高阶的RL训练方法避免学习到错误的观测路径,相信未来能在该领域进一步发挥AI技术的作用。

从虚拟到现实,让游戏AI走入现实世界

腾讯AI Lab作为AI游戏研究先行者,其自主研发的深度强化学习智能体正不断走近现实。除了「绝悟」,此前推出的棋牌游戏 AI 「绝艺」在担任国家围棋队训练专用AI同时,逐步拓展麻将等非完全信息类博弈能力。

同时,基于对强化学习技术前景的关注,实验室正积极促进强化学习领域的共同发展。2019年,腾讯AI Lab与王者荣耀共同发布AI开放研究平台「开悟」,过去三年已通过「以赛促研」助力高校AI人才培养。11月21日,平台发布「王者荣耀AI开放研究环境」,为非商业用途的机器学习算法研究公开提供业界独有的高复杂度MOBA训练环境,助力前沿探索。

未来,腾讯AI Lab将与学界、业界携手,共同利用游戏环境不断提升AI能力,并寻找 AI 技术解决更多问题的可能性,在现实领域发挥更大作用。

相关论文:

论文链接:http://arxiv.org/abs/2212.01737

开源链接:https://github.com/tencent-ailab/RLogist


入门
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

表征学习技术

在机器学习领域,表征学习(或特征学习)是一种将原始数据转换成为能够被机器学习有效开发的一种技术的集合。在特征学习算法出现之前,机器学习研究人员需要利用手动特征工程(manual feature learning)等技术从原始数据的领域知识(domain knowledge)建立特征,然后再部署相关的机器学习算法。虽然手动特征工程对于应用机器学习很有效,但它同时也是很困难、很昂贵、很耗时、并依赖于强大专业知识。特征学习弥补了这一点,它使得机器不仅能学习到数据的特征,并能利用这些特征来完成一个具体的任务。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
围棋技术

围棋是一种策略性棋类,使用格状棋盘及黑白二色棋子进行对弈。起源于中国,中国古时有“弈”、“碁”、“手谈”等多种称谓,属琴棋书画四艺之一。西方称之为“Go”,是源自日语“碁”的发音。

推荐文章
暂无评论
暂无评论~