百度大脑百度大脑

智能标注原理揭秘,一文读懂人工智能如何解决标注难题

对于深度学习入门者,这些公开数据集可以提供非常大的帮助;但是对于大部分企业开发者,特别在医学成像、自动驾驶、工业质检等领域中,他们更需要利用专业领域的实际业务数据定制 AI 模型应用,以保证其能够更好地应用在业务中。因此,业务场景数据的采集和标注也是在实际 AI 模型开发过程中必不可少的重要环节。

无论是在传统机器学习领域还是现今炙手可热的深度学习领域,基于训练样本有明确标签或结果的监督学习仍然是一种主要的模型训练方式。尤其是深度学习领域,需要更多数据以提升模型效果。目前,已经有一些规模较大的公开数据集,如 ImageNet,COCO 等。

对于深度学习入门者,这些公开数据集可以提供非常大的帮助;但是对于大部分企业开发者,特别在医学成像、自动驾驶、工业质检等领域中,他们更需要利用专业领域的实际业务数据定制 AI 模型应用,以保证其能够更好地应用在业务中。因此,业务场景数据的采集和标注也是在实际 AI 模型开发过程中必不可少的重要环节。

数据标注的质量和规模通常是提升 AI 模型应用效果的重要因素,然而完全通过人力手动标注数据建立一个高质量、大规模专业领域数据集却并不容易:标注人员的培训与手工标注成本高、耗时长。为解决此问题,我们可以利用主动学习的方法,采用“Human-in-the-loop”的交互式框架(图1)进行数据标注,以有效减少人工数据标注量。

图1 基于主动学习的“Human-in-the-loop”交互式数据标注框架

主动学习(ActiveLearning,AL)是一种挑选具有高信息度数据的有效方式,它将数据标注过程呈现为学习算法和用户之间的交互。其中,算法负责挑选对训练 AI 模型价值更高的样本,而用户则标注那些挑选出来的样本。如“Human-in-the-loop”交互式数据标注框架,通过用户已标注的一部分数据来训练 AI 模型,通过此模型来标注剩余数据,从中筛选出 AI 模型标注较为困难的数据进行人工标注,再将这些数据用于模型的优化。几轮过后,用于数据标注的 AI 模型将会具备较高的精度,更好地进行数据标注。

图像分类问题举例,首先,人工挑选并标注一部分图像数据,训练初始模型,然后利用训练的模型预测其余未标注的数据,再通过“主动学习”中的“查询方法”挑选出模型比较难分辨类别的数据,再人为修正这些“难”数据的标签并加入训练集中再次微调(Fine-tuning)训练模型。“查询方法”是主动学习的核心之一,最常见的“查询方法”有基于不确定性的样本查询策略和基于多样性的样本查询策略。

基于不确定性的样本查询策略可查询深度学习模型预测时,靠近决策边界的样本。以二分类问题举例,当一个未标注样本被预测为任一标签的概率都是50%时,则该样本对于预测模型而言是“不确定”的,极有可能被错误分类。要注意的是,主动学习是一个迭代过程,每次迭代,模型都会接收认为修正后的标注数据微调模型,通过这个过程直接改变模型决策的边界,提高分类的正确率。

基于多样性的查询策略,可实现对当前深度学习模型下状态未知样本的查询。将通过多样性查询挑选出的数据加入训练集,可丰富训练集的特征组合,提升模型的泛化能力。模型学习过的数据特征越丰富,泛化能力越强,预测模型适用的场景也越广。

为解决大数据量标注的痛点,基于主动学习且融合多样查询策略的智能标注 AI 解决方案应运而生。通过 EasyDL 平台使用智能标注后,开发者们只需标注数据集中30%左右的数据,即可启动智能标注在 EasyDL 后台自动标注剩余数据,再返回少量后台难以确定的数据再次进行人工标注,同时提升自动标注的准确性,经过几轮之后,在实际项目测试中,智能标注功能可以帮助用户节省70%的数据标注量,极大地减少数据标注中的人力成本和时间成本。

EasyDL 零门槛 AI 开发平台,面向企业开发者提供智能标注、模型训练、服务部署等全流程功能,针对 AI 模型开发过程中繁杂的工作,提供便捷高效的平台化解决方案。EasyDL 面向不同人群提供了经典版、专业版、行业版三种产品形态,其中 EasyDL 专业版支持深度开发高精度业务模型,内置了丰富的大规模预训练模型,仅需少量数据即可达到优异的模型效果。

目前,EasyDL 的智能标注功能已支持计算机视觉 CV 方向的物体检测模型、自然语言处理 NLP 方向的文本分类模型两大方向的数据标注。选择 EasyDL 专业版模型定制,点击“智能标注“即可进入。使用方法也很简单,共为三步:

  • Step1 启动智能标注

在“数据管理/标注”上传完训练数据集后,即可激活“创建智能标注任务”按钮(图2),点击该按钮后,进入数据集选择。需要注意的是,系统将自动对选择的数据集进行校验。校验规则如下:

  • 图像数据集:确保每个标签的标注框数都超过10个。
  • 文本数据集:数据集中已标注数据量超过600条;每个标注标签的数据量超过50条;未标注数据的数据量超过600条。

以上图像和文本数据集之所以采取不同的校验规则,是因为在实际场景下,文本与图像的数据集获取方式及数据规模区别较大,且智能标注后端 AI 模型训练的启动样本数量不一。

点击“启动智能标注”进入数据校验阶段,若校验不通过,会出现“智能标注启动失败”的提示;若校验通过,则进入筛选数据阶段,用户需稍作等待。

图2 创建智能标注任务

  • Step2 标注部分数据

系统会自动从未标注数据集中筛选出最具有代表性、也是最需要优先标注的样本数据。用户需要人工标注这些推荐的样本数据,为了提高标注效率,系统也会提供预标注供用户修改确认。在图像智能标注中,用户勾选右上角的“显示预标注”开启该辅助功能(图3),点击“满意预标注结果”即可对预标注结果进行确认;在文本智能标注中,系统会自动显示预标注标签,点击每一条文本右侧的“确认”或右上角的“本页全部确认”对预标注进行确认(图4)。

确认所有推荐数据的预标注后,用户可以自主选择是否进行下一轮数据筛选。图像智能标注中,若用户不中止智能标注,则系统会自动进行下一轮;文本智能标注中,由于文本数据集规模一般较大,确认数据预标注的人力成本较高,为了提升用户体验,系统不默认进入下一轮迭代,用户可点击右上角的“优化智能标注结果”进行下一轮筛选(图5)。通过多轮筛选,数据预标注准确性也会不断提升。为了保证数据标注智能,建议用户至少进行一轮的数据筛选或“优化智能标注”。

图3 图像智能标注

图4 文本智能标注


图5 文本智能标注进入数据筛选优化迭代


  • Step3 结束智能标注

当用户觉得当前推荐数据的预标注已足够准确,不再进行下一轮数据标注推荐筛选,或者系统自动判断当前标注的数据已足够时,则进入结束智能标注阶段。在图像智能标注中,系统会弹出提示(图6),选择“一键标注”系统会自动标注剩余未标注数据,选择“立即训练”则停止智能标注,之后可以利用已确认的标注数据去训练模型;在文本智能标注中,不选择“优化标注结果”则认为停止智能标注,系统自动标注所有未标注数据,并归为“已标注·智能”数据集,该类数据与“已标注·人工”均可用于模型训练。

图6 结束图像智能标注


图7 EasyDL 智能标注使用流程图


在智能标注功能的加持之下,重复枯燥的标注功能都交给 AI 模型,大大降低了时间与人力成本。在数据方面,EasyDL 中的 EasyData 智能数据服务平台,提供覆盖采集、清洗、标注、加工等一站式数据处理功能,并与模型训练环节无缝对接,通过数据闭环功能支持高效的模型迭代。

百度搜索“EasyDL”,尝试智能标注,开发你的高精度业务模型吧!

百度大脑
百度大脑

百度大脑是百度技术多年积累和业务实践的集大成,包括视觉、语音、自然语言处理、知识图谱、深度学习等AI核心技术和AI开放平台。

入门主动学习智能标注
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

文本分类技术

该技术可被用于理解、组织和分类结构化或非结构化文本文档。文本挖掘所使用的模型有词袋(BOW)模型、语言模型(ngram)和主题模型。隐马尔可夫模型通常用于词性标注(POS)。其涵盖的主要任务有句法分析、情绪分析和垃圾信息检测。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

决策边界技术

在具有两类的统计分类问题中,决策边界或决策曲面是一个超曲面,它将底层的向量空间分成两组,每组一个。分类器会将决策边界一侧的所有点分为属于一个类,而另一侧属于另一个类。也即二元分类或多类别分类问题中,模型学到的类别之间的分界线。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

主动学习技术

主动学习是半监督机器学习的一个特例,其中学习算法能够交互式地查询用户(或其他信息源)以在新的数据点处获得期望的输出。 在统计学文献中,有时也称为最佳实验设计。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
推荐文章
暂无评论
暂无评论~