Xuan Liao、Wenhao Li等作者

CVPR 2020 | 基于多智能体RL实现多轮连续交互,IteR-MRL使图像分割算法达到医用标准

如何提高交互式图像分割算法的效率?上海交大和华师大的研究者提出了一种基于多智能体深度强化学习的新型算法。

现有的交互式图像分割算法虽然能迭代式地更新分割结果,但很大程度上忽略了对连续交互之间动态性的探索,造成分割效率大大降低。

在 CVPR 2020 的一篇论文中,来自上海交大和华师大的团队联合提出了一种基于多智能体深度强化学习(MARL)的新型交互式三维医疗图像分割算法(IteR-MRL)。通过将迭代更新的交互式图像分割的动态过程建模成马尔可夫过程,并使用 MARL 解决,IteR-MRL 实现了更少的交互次数和更快的收敛速度,在多个医疗图像数据集上超过了现有算法。


论文地址:https://arxiv.org/abs/1911.10334

现有交互式图像分割策略的缺点

目前的三维图像自动分割算法很难达到医用标准。为了得到更佳的分割结果,交互式的图像分割策略成为有价值的研究方向,此类策略通过引入少量的用户提示实现对分割结果的迭代优化。

现有的交互式算法虽然能迭代式地对分割结果进行多轮更新,但它们仍然独立地考虑每一轮更新的分割结果,很大程度上忽略了连续交互的动态性。

该研究的贡献

为了更好地利用交互式图像分割的动态性,来自上海交大和华师大的团队提出了一个基于深度强化学习的算法 IteR-MRL,将交互式医疗图像分割的动态过程建模成一个马尔科夫决策过程,然后用深度强化学习求解。该算法从整体上考虑分割更新序列,充分挖掘了交互分割前后的关联。

由于体素级的图像分割标注任务会造成单智能体的强化学习算法遭遇探索空间爆炸问题,因此该团队采用多智能体模型,将每个图像体素看作一个智能体。通过让所有智能体共享同一个行为策略,将探索空间减小到了可行的范围。多智能体模型还能同时实现图像体素的合作交互,从而有效地捕捉分割任务中体素之间的依赖性。

该研究的贡献主要有以下三点:

(1)将交互式图像分割任务建模成一个马尔科夫决策过程,提出了全新的基于 MARL 的交互式三维医疗图像分割框架,使得用户的交互得到更有效地利用;
(2)通过分割概率的形式来保留分割结果的不确定性,丰富了之前分割结果的信息,也实现了更加精确和精细的分割调整;
(3)实验表明,通过考虑连续两次分割结果之间的相对增益,分割效果得到显著提升,并具备更少的交互次数和更快的收敛速度。

方法概览

迭代式交互图像分割方法的流程图。

该研究采用迭代更新的流程。首先向模型提供初始的粗分割结果(可以来自任意图像分割算法或不精确的人工标注)。如果当前分割结果不符合预期,则用户在错误区域标注关键性的提示信息,更新算法根据用户提示再次更新分割结果。上述过程不断迭代,直至用户对优化后的分割结果满意为止。

基于 MARL 的交互式图像分割框架(IteR-MRL)

IteR-MRL 算法图示。

在每一步交互更新中,将包含图像、之前分割结果和提示图的当前状态输入到 FCN 网络中,然后网络根据其输出的动作产生当前的分割结果。接着,用户根据错误区域给出的提示点(红点),进而生成新的提示图。每一步的回报值都由环境决定,即分割的预测标签和正确标签。在 MARL 的设定中,体素被看作是互相协作的智能体。

1. 状态设计


每个智能体的状态由体素值、之前分割概率和提示图上对应的值组成,两张提示图分别代表了用户给出的正负提示。分割概率能够保留模型之前输出结果的不确定性。

2. 动作设计

基于之前分割概率,每个智能体的动作是预测基于之前分割结果的改变量。将改变量施加到之前分割结果上,生成新的分割结果。动作空间由 K 个动作组成,使得智能体可以在不同情况下进行有针对性的多样化调整。

3. 回报设计

每个智能体的回报被设计为当前预测结果与正确标签之间的交叉熵变化量。这样的相对性能回报是基于性能变化趋势的,我们可以同时得知性能变化的方向及程度。比起一个遥远的目标,相对性能可以给智能体提供一条可供对比的基线,并超越。

实验

对比实验

1. 与不同初始分割算法的组合

更新算法以四种不同的初始分割算法的分割结果作为其初始分割结果。比起其他三种现有的更新算法,不论初始分割算法如何选择,IteR-MRL 都拥有更好的性能。这表明了该算法的鲁棒性和普适性。

2. 一个交互序列中的性能提升

在其他算法的每步性能提升缓慢时,IteR-MRL 仍能保持相对高的性能提升,这证明了在交互式分割任务中考虑动态性可以有效且快速地提升性能。每一步相对高的性能提升逐渐累积,使得最终算法达到好的分割精度。

3. 分割结果可视化对比

从上图中可以观察到,当其他算法倾向于产生相对光滑的分割轮廓时,IteR-MRL 算法在捕捉物体边缘细节信息时表现更佳。

4. 不同数据集的性能对比

该实验证明 IteR-MRL 算法对于数据集的鲁棒性,在脑部肿瘤、心脏和前列腺数据集上都拥有稳定的表现。

控制变量实验

1. 不同动作与状态设定的组合

数值小的动作比数值大的动作拥有更好的性能,且能够提供多样化的调整尺度,使得模型动作更加充足,从而达到好的性能。

2. 回报的设计对性能的影响

基于相对性能增益的回报具备更优秀的效果,原因是相对增益能够更好地反映智能体对分割概率的调整。
理论RL深度强化学习图像分割
1
相关数据
图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

深度强化学习技术

强化学习(Reinforcement Learning)是主体(agent)通过与周围环境的交互来进行学习。强化学习主体(RL agent)每采取一次动作(action)就会得到一个相应的数值奖励(numerical reward),这个奖励表示此次动作的好坏。通过与环境的交互,综合考虑过去的经验(exploitation)和未知的探索(exploration),强化学习主体通过试错的方式(trial and error)学会如何采取下一步的动作,而无需人类显性地告诉它该采取哪个动作。强化学习主体的目标是学习通过执行一系列的动作来最大化累积的奖励(accumulated reward)。 一般来说,真实世界中的强化学习问题包括巨大的状态空间(state spaces)和动作空间(action spaces),传统的强化学习方法会受限于维数灾难(curse of dimensionality)。借助于深度学习中的神经网络,强化学习主体可以直接从原始输入数据(如游戏图像)中提取和学习特征知识,然后根据提取出的特征信息再利用传统的强化学习算法(如TD Learning,SARSA,Q-Learnin)学习控制策略(如游戏策略),而无需人工提取或启发式学习特征。这种结合了深度学习的强化学习方法称为深度强化学习。

交叉熵技术

交叉熵(Cross Entropy)是Loss函数的一种(也称为损失函数或代价函数),用于描述模型预测值与真实值的差距大小

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

推荐文章
暂无评论
暂无评论~