Jiawei作者

专访倍赛CEO杜霖:数据标注行业的内在逻辑

数据标注行业或许是人工智能相关领域中最不受关注的行业之一,而其原因则多少是因为这是人工智能整个链条中最不智能、“有多少智能就有多少人工” 的部分;大多数数据服务公司依靠低价获得发包方业务而存活,即使拥有技术的公司也无非是提供优化的标注平台。

数据标注行业或许是人工智能相关领域中最不受关注的行业之一,而其原因则多少是因为这是人工智能整个链条中最不智能、“有多少智能就有多少人工” 的部分;大多数数据服务公司依靠低价获得发包方业务而存活,即使拥有技术的公司也无非是提供优化的标注平台。

然后数据标注市场的体量却不可忽视,据估计人工智能企业在数据标注方面的投入约占到所有投入的 1/3 左右;而另一方面,在中国已经约有10万名的全职数据标注员,100万名的兼职数据标注员。

然而据财经网报道,“2018年,河南省的数据标注公司死掉了一大半,剩下几乎都在艰难求生”。真的是这样吗?随着人工智能技术的发展,数据标注的工作是否会被取代?听听业界人士的观点或许能对此有更直观了解。

机器之心记者采访了数据服务企业 BasicFinder 创始人杜霖。

image.png曾就读于上海交大ACM班,高中时期就已经在核心期刊发表计算机视觉论文的杜霖,在大学毕业将自己创立的第一家数据挖掘公司以400万美金的价格卖出。2014 年伴随着深度学习技术的兴起和发展,杜霖和其团队认为未来很长一段时间内 AI 技术都将紧密依赖于有监督数据的机器学习技术,因而决定创立BasicFinder倍赛。目前 BasicFinder 拥有技术团队 45 人,全职数据标注团队 2000 人,在全国各地拥有 20 余家全资子数据标注中心,除提供数据标注服务之外,还开发并推出了私有化数据标注平台 BasicFinder Hive,可灵活配置数据标注流程和标注工具集。

问:为什么选择做数据标注这个行业?

杜霖:在 14 年深度学习刚兴起时,我们自己花了 6 个月的时间跑了一个实验,而其中 70% 的时间花在了数据处理上,训练模型和调参只用不到 30% 的时间。我们发现这里面的痛主要就在于数据标注过程的协同管理不完善以及数据处理的技术不够人性化,这导致标注数据质量很不理想,我们花了很多时间来处理数据中出现的各种各样的问题。这让我萌生了解决这个问题的念头。

其次,我们认为现在的深度学习神经网络其本质上就是由样本空间反向构造一个多维向量分类器的系数空间的过程。要想训练一个好的分类器,就必须有足够大的样本空间,也即标注好的数据;只有这样训练出来的模型才能 work。所以无论是无人驾驶也好,智能安防、智能医疗也好,其基础都是标注数据。事实上,我个人更觉得现在的人工智能仅仅实现了认知的初级阶段,只是大数据行业伴随着深度神经网络分类器的好用开始的一个新领域,本质上还是属于大数据行业,所以重点还是数据。

另外,从目前来看,现在人工智能(包括视觉、语音、NLP等领域)能够落地的解决方案九成以上都是基于有监督的学习模型,这说明这个市场很大。估计来看,人工智能市场的大约 30% 都在数据服务这一块儿,差不多有百亿美元的水平。

问:数据标注行业有哪些不同的发展模式?

杜霖:有不同的维度吧。

首先从服务模式上来看,可以分为众包和全职。众包的好处在于成本低,样本多样性强,但众包的缺点在于难以保证质量。举例来讲,某知名学术数据集有 1500 万张标注图片,是由近五万个自愿者花费了 2 年时间清洗、分类、标记出来的,但是这里面的标注水平参差不齐,训练的模型在实际中根本没法应用。而全职则相反,通过有效的培训及质控手段,能够提供较高的数据质量,但成本却很高。对于很多业务需求不是很稳定的人工智能企业来讲,组建并维护一个全职的标注团队并不现实,这时候就需要有专门的数据标注公司来帮助他们完成相应的服务。此外,一些客户的数据具有保密性质,例如银行业,是不能使用众包来处理的。这就需要有专门的数据标注公司通过完善的技术及管理手段为其提供安全的数据标注服务。

WechatIMG56.jpg其次从运营模式来看,数据标注公司可以分为业务驱动型和平台驱动型。业务驱动型企业的特点就是说它有很多标注及数据运营人员,会在人员的管理和业务上发力。技术驱动型企业,会通过技术的手段,着重于标注平台等基础系统的研发。但不管是哪种类型,回归到本质,都是关于效率的问题,这个行业,既需要通过管理来提高效率,又要通过平台技术来提升效率。
此外,从竞争力角度来看,可以分为低价格竞争和高质量竞争。数据标注这个行业最早是没有人做的,然后经历了16、17 年快速的发展,整个市场良莠不齐,很多三线城市的没有技术的公司就是靠多接活,靠低廉劳动力压低价格赢得市场;但是最终他们又不能保证足够高的质量和技术支持,然后就逐渐被市场淘汰,现在基本上就是一个洗牌的过程,我觉得现在应该已经洗掉了一半。最后剩下的基本都是一些专业的能够提供稳定技术支持的公司。

问:现在有人提出利用自动标注来取代人工,那么数据标注行业未来会不会被取代?

杜霖:刚才我说了,现在的深度学习神经网络其本质上就是一个多维向量的分类器,它的构造过程离不开大量的标注数据,因此短时间,5-10年,数据标注行业都不可能被取代。

另一方面,你说现在有一些做自动标注来取代人工标注。这其实是一个先有鸡还是先有蛋的问题。你要想做自动标注,首先你得有model,而你的model又必然是从标注数据中训练出来的。你想,如果客户已经有了model,他还要标注数据干嘛?大部分企业他们是没有 model 的,他们需要标注数据来训练他们的model。所以用程序标注数据是一个悖论。当然这并不是说程序标注完全没有意义,用程序对数据做预处理是非常有用的。例如我们要做人体骨骼点标注时,可以先对数据进行预处理,把人检测出来。所以,AI可以做预处理,但是不能做最终的标注。

问:从 14 年至今,就您的观察在数据标注方面有什么变化?

杜霖:最大的一个变化就是场景的多样性。现在学术圈如果有一些基础的效果出来了,工业界马上就会想到不同的应用场景,就尝试用这个模型做各种各样的解决方案。比如 16 年 CMU 发的那篇人体骨骼点检测的paper火了,我们马上就收到大量关于人体骨骼点检测的标注需求。做自动驾驶的人要用它来检测行人的运动轨迹,做无人超市的会用它来检测消费者的行为,做运动健康的会用它来判断运动姿势,做安防的会用它来识别暴恐行为及可疑人员跟踪……。所以我们也会根据学术圈的研究进展及时地更新我们的工具。在 19 年,根据我们的判断数据业务量基本还会持续增长,应用场景会变得更加丰富。

杜霖:最大的一个变化就是场景的多样性。现在学术圈如果有一些底层的效果出来了,工业界马上就会想到不同的应用场景,就尝试用这个模型做各种各样的解决方案。比如 16 年 CMU 发的那篇人体骨骼点检测的paper火了,我们马上就收到大量关于人体骨骼点检测的标注需求。做自动驾驶的人要用它来检测行人的运动轨迹,做无人超市的会用它来检测消费者的行为,做运动健康的会用它来判断你的运动姿势,做安防的会用它来判断你有没有暴力行为……。所以我们也会根据学术圈的研究进展及时地更新我们的工具。在 19 年,根据我们的判断数据业务量基本还会持续增长,应用场景会变得更加丰富。


产业倍赛数据标注
3
暂无评论
暂无评论~