一步到位,自动批量过滤无人图片,智能园区管理事半功倍

在进行AI模型开发时,数据的数量与质量直接影响模型效果。在实地数据采集之后,企业往往需要从大量数据中筛选出符合训练要求的相关数据,剔除质量差或不相关的数据,这个步骤被称为数据清洗。

通常来讲,在清洗数据时主要会清理掉对训练任务没有用途的数据,例如在训练工厂工人佩戴安全帽识别模型时,希望在视频抽帧后的大量图片中仅保留有工人出现的图片进行标注训练。在这一步骤上,传统做法是进行人工筛选,人力投入较多且容易发生遗漏;随着人工智能发展,目前许多平台,如百度大脑AI开放平台,已经提供人脸检测、人体检测的通用接口,用户可以先调用接口处理数据,筛选出采集到人像的数据,再进入到具体的检测识别步骤。那么,是否有一个集成了各项数据处理能力,尽量减少人工干预,能够自动完成视频数据采集、抽帧、数据清洗、智能标注,从而高效提取高质量训练数据的解决方案呢?

关注到有越来越多的用户对数据处理有强烈需求,今年4月,百度全新推出智能数据服务平台EasyData,集数据采集、数据清洗、数据标注等功能于一身,完成上述数据处理工作之后,可以在EasyDL平台进行模型训练、模型部署。

针对数据清洗这一具体功能,EasyData目前上线了去相似、去模糊、旋转、裁剪和镜像这5种基础的数据清洗功能。那么除了常规能力之外,EasyData还有什么业内独家的终极秘技?

从应用出发,高级清洗功能

让数据处理事半功倍

在园区智能管理等场景下,需要监测工厂园区、林区中是否有人闯入,或检查工人是否佩戴安全帽。为了满足此类场景下的图片清洗需求,EasyData上线了高级清洗功能,将无人脸、无人体出现的数据进行过滤。EasyData联动百度大脑AI开放平台提供的前沿技术能力,用户仅需在百度智能云上开通相应的服务(人脸检测和人体检测都可以免费试用),就可以通过简单的配置,在EasyData平台上直接使用这些功能进行自动数据清洗。

1. 过滤无人脸图片

如果以前没有用过百度智能云的人脸检测服务,第一次使用高级清洗的功能会提示“申请免费试用”,点击链接会进入百度智能云人脸检测的页面,按照提示,开通服务后,再回到EasyData的页面就可以正常使用了。

和基础的数据清洗服务一样,过滤无人脸图片也是以数据集为单位的。在数据清洗页面选择过滤无人脸图片,点击保存,提交任务就可以进行清洗。如果勾选了“保留标签”,那么不仅会把没有人脸的图片过滤,还会将人脸画框同步至清洗后的数据集。
提交任务时勾选保留人脸画框
例如下图,清洗前的数据集除了人脸图片,还有一些风景照、车辆等其他物体的照片,人脸过滤会把这些没有人脸的图片过滤,保留下来包含人脸的图片,包括戴口罩、被遮挡的人脸也可以识别出来。
清洗前的数据集中有人脸照片、风景照、静物照
清洗后的数据集只有人脸照片被保存下来
戴口罩的人脸图片
2. 过滤无人体图片

过滤无人体图片同样会用到百度智能云的人体检测能力,在使用之前需要在百度智能云上开通相应的服务。过滤无人体图片会用到两个接口,人体检测和属性分析(https://ai.baidu.com/tech/body/attr)和人像分割(https://ai.baidu.com/tech/body/seg)。数据集模板为图像分类和物体检测的数据集会调用人体检测和属性分析接口,数据集模板为图像分割的数据集会调用人像分割接口。百度智能云上的人像分割接口返回的是人像图片对应的二值图片(人像为1,背景为0),在后端会执行相应的标签转换,返回的二值图片转换成对应的标签。
清洗前的数据集中有风景图、静物图和人体图
数据清洗过滤保留的5张人体图片
模板为图像检测的数据集清洗后的标签
模板为图像分割的数据集清洗后的标签
关注广泛需求,提供

多种基础数据清洗功能

1. 去相似图片

用摄像头自动采集图片的时候,由于长时间在同一个场景下,即使做了抽帧处理,还是会有大量的相似图片。大量的相似图片,数据价值低,而且占用了大量的存储空间,而人工筛选,耗时费力,容易出错。EasyData平台推出的去相似图片利用图片的相似检索特征,计算图片的两两相关性,可以自动地判断相似图片、保留不相似的图片,具体操作也十分简便。

如下图所示,去相似前的数据集里有8张图片,根据图片的相似度,图片可以分成3类。清洗完成后的数据集中有3张图片,分别是清洗前的3类图片中的一张。
去相似前的8张图片
去相似后保留下来3张图片
拖拽圆点可以修改相似度分值
2. 去模糊图片

相机抖动、物体快速移动都会造成拍出来的图片不清晰、产生低质图片。通过人工挑选的方法去除模糊图片缺乏统一的标准,容易漏删或多删。利用EasyData的去模糊图片,可以轻易地去除模糊图片。

以示例图片为例,清洗前有5张图片,画质不一,清洗后保留下来两张高质量的图片。此外,如果用户认为有部分模糊图片没有去除,或者高质量的图片没有保留下来,可以考虑调整清晰度的分值,重新清洗。
去模糊前的5张画质不一的图片
去模糊后保留下来清晰图片
拖拽圆点可以修改清晰度分值
对于普通清洗,可以在一个清洗任务中提交多个清洗操作,例如同时勾选去相似、去模糊功能,即可同时去除相似和模糊的图片。

目前的数据清洗服务所能支持的最大数据集大小是5万张图片。基于EasyData平台的大数据处理平台,对于基础清洗服务,2万张图片的数据集,仅需1小时可以完成清洗5万张图片的数据集,只需2小时即可完成清洗。对于高级清洗服务来说,清洗效率也可以通过配置QPS灵活调整清洗效率,更方便快捷。

考虑到智能园区管理等场景中,有对视频进行截帧、自动上传的需求,EasyData平台也免费提供SDK,供用户进行下载,可以将SDK接入业务现场的数据采集终端,在平台设置截帧时间与间隔,自动将原始视频数据截为图片数据并上传至EasyData平台进行后续处理。

EasyData是百度大脑推出的业内首个提供软硬一体、端云协同的智能数据采集与处理平台,支持图片、文本、音频和视频四类数据的处理,其中图片数据支持了采集、清洗、标注一站式处理,覆盖模型开发中的各类数据管理需求。EasyData处理后的数据可直接应用于EasyDL模型训练,通过EasyDL预训练模型和自动迁移学习机制,高效开发AI模型。
飞桨PaddlePaddle
飞桨PaddlePaddle

飞桨(PaddlePaddle)是中国首个自主研发、功能完备、开源开放的产业级深度学习平台。

https://www.paddlepaddle.org
专栏二维码
产业EasyData智能园区
相关数据
图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
人脸检测技术

人脸检测(face detection)是一种在任意数字图像中找到人脸的位置和大小的计算机技术。它可以检测出面部特征,并忽略诸如建筑物、树木和身体等其他任何东西。有时候,人脸检测也负责找到面部的细微特征,如眼睛、鼻子、嘴巴等的精细位置。

推荐文章
暂无评论
暂无评论~