AI「炼丹师」被正式列入新职业!光阿里系从业者就超20万,AI人才迎来需求之变

人工智能训练师转正!

人力资源与社会保障部网站3月2日消息,人力资源和社会保障部与市场监管总局、国家统计局联合向社会发布了智能制造工程技术人员、人工智能训练师等16个新职业。这是自2015年版《中华人民共和国职业分类大典》颁布以来发布的第二批新职业。

在我国,每年需要进行标注的语音数据超过 200 万小时,图片数据超过数亿张……针对这些基础数据的采集、整理、清洗、标注服务,是训练人工智能模型的前期必要工作。

庞杂的海量数据需要经过清洗与标注才能被唤醒价值,数据标注从业者应时而生,他们成为人工智能时代下的一项新生职业。

我们啧啧称奇的人工智能离不开他们「三昧真火」的淬炼。凡是 AI 学会的技能,都经过他们的培训和审核。

随着人工智能不断进化和发展,人工智能训练师这项职业也在不断走向精细化、专业化和规模化。你瞧,当下疫情的技术战场上就充满了他们的身影。

撰文 | 盈君、力琴

编辑 | 四月

一场关乎生死的疫情战役,人工智能冲锋陷阵,在疫情防控、在线问诊、AI 测温等场景中脱颖而出,化身为「情报员」、「小护士」、「防护师」等出现在抗疫一线。

而这些人工智能不同化身的背后,都指向了同一个特别的职业群体——人工智能训练师。我们啧啧称奇的人工智能离不开他们「三昧真火」的淬炼。凡是 AI 学会的技能,都经过他们的培训和审核。

在我国,每年需要进行标注的语音数据超过 200 万小时,图片数据超过数亿张……针对这些基础数据的采集、整理、清洗、标注的服务,是训练人工智能模型的前期必要工作。报告称,2018 年中国人工智能基础数据服务市场规模为 25.86 亿元,其中数据资源定制服务占比 86%,预计 2025 年市场规模将突破 113 亿元。

这背后的市场供给方则主要由人工智能基础数据服务供应商、算法研发单位自建或直接获取外包标注团队的形式组成,他们成为人工智能时代下的一项新生职业。

 01 一群特殊的训练师

仅在阿里巴巴生态内,人工智能训练师从业者就超过了 20 万人。

1 月 27 日,大年初三,新冠疫情进入爆发阶段,春节走街串巷的既定行程被取消。这一天,还是阿里达摩院疫情机器人上线的日子。

该机器人的主要功能是通过电话外呼进行疫情摸查,在网络平台为市民提供疫情咨询和问诊服务。落地任务分两步走。第一步是设计训练通用的机器人;第二步,根据各地需求不同,做一些补充训练,以便落地。

作为阿里的一名人工智能训练师,芷汇一刻也停不下来。五天前,芷汇接到补充训练的指定任务,主要负责广西壮族自治区机器人的上线工作。

在广西方言中,发音通常不分平翘舌,「是」和「4」是一个意思。为了让机器人知晓当地人的意思,需要对机器人进行针对性的智能训练,针对方言语音识别训练、用户语义理解训练进行特定训练。

向机器人输送「养料」,加强语义理解模型训练,让机器人更能理解人类,是芷汇工作当中最重要的环节,基于机器人通用模型,针对需求制定话术,训练模型。

要让机器人理解人类,需要有意设计对话流程、回复话术,保持机器人与用户的顺畅交流。芷汇谈道,广西的贵港、北海,因地处旅游区,针对用户的调研话术也需进行调整。

近年来,人工智能训练师逐渐受到了人们的关注。

根据中国就业培训技术指导中心的通告,人工智能训练师的准确定义是:「使用智能训练软件,在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅助作业的人员」。

在《关于拟发布新职业信息公示的通告》里,这群特殊的训练师的工作内容则被描述为:

  • 1. 标注和加工图片、文字、语音等业务的原始数据;
  • 2. 分析和提炼专业领域特征,训练和评测人工智能产品相关算法、性能和功能;
  • 3. 设计人工智能产品的交互流程和应用解决方案;
  • 4. 监控、分析、管理人工智能产品应用数据;
  • 5. 调整、优化人工智能产品参数和配置。

他们工作类似于软件运维工程师,从最开始的数据标注到产品参数优化每个环节都参与其中,他们是算法、技术从理论走向应用的关键一环,也是 AI 技术产业化不可或缺的环节。

 02 「小镇青年」走向「专精尖」

事实上,早在 2015 年,阿里客户体验事业群就在其客服团队孵化了国内第一批人工智能训练师,并由阿里巴巴小蜜团队首次提出并向国家注册。

早期的 AI 训练师门槛并不高,他们主要通过数据爬虫收集数据,工作机械化,吸引了大量没有很高专业技术储备的「小镇青年」从业,AI 训练师行业也一度被认为是「AI 产业里的富士康」,很难将它与「专业化」、「技艺型」、「创造力」等词语相联系。

根据支付宝新职业调查数据显示,「小镇青年」是 40 余种新职业的主力军,从业者约一半生活在三四五线市县,其中三分之二以上是兼职。


然而,随着人工智能进入落地抢跑阶段,垂直场景数据成为主要需求,对数据类型、质量、精度等的要求也明显提高。语音类、图像类、NLP 类数据集开始出现,数据服务领域的头部企业及专业的第三方公司实力逐渐凸显出来。

据相关报告,2018 年,有约 34% 的业务量流向专业做数据采标的第三方公司,专业的数据需求量可见一斑。

数据专业性、准确性的提高,对于从业者来说,也需要相关的专业知识并激发创造力,以此满足用户的定制化需求。

标注过程不再是粗线条、「傻瓜式」操作——勾画出「天空」,「车辆」,「人群」即可,相反标注的维度愈加细分垂直,例如在人脸识别场景,早期只用识别人脸,之后发展到情绪检测,后期更为深入细分如微表情识别,这就要求数据服务从业者需要具备相应的领域知识。

在此背景下,原本十分分散的数据标注行业开始泾渭分明,数据标注逐渐从劳动密集型转为技艺密集型,流水线作业的 AI 训练师们也多进化为更专业、更高精尖的工作模式,他们慢慢成为这个领域的「专家」。

此外,AI 训练师的工作模式也不止步于一人一机的协作模式。越来越多的调研显示,未来,机器模拟或机器生成数据有可能成为新出口。

AI 训练师团队引入机器标注,增加机器能够标注的维度、提升机器处理数据的精度,这不仅是提升效率、扩大市场边界的考虑,也更符合 AI「去人工化」的本质。

从长期来看 AI 虽然越来越智能,能够辅助标注工作,但它对于偏感性的判断仍比较难,如 AI 对文字的演化和情绪的识别仍是弱势,未来 AI 要处理行业内更为复杂的问题,但人的感知力和判断力不能被替代。

据悉,预计到 2025 年,仅是自动驾驶单一行业的基础数据服务规模就将超过 24 亿元,行业数据总任务量超一亿张。随着人工智能在智能制造、智能交通、智慧城市、智能医疗、智能农业、智能物流、智能金融及其他各行各业的广泛应用,人工智能训练师的规模将迎来爆发式增长。

预估到 2022 年,国内外相关从业人员有望达到 500 万。到那时,AI 训练师或许还会有新的画像。

 03 AI 人才需求之变

需求当下,芷汇的身影只是人工智能训练师从业者一个缩影。近年来,人工智能行业从业者规模将迎来爆发式增长,预计到 2022 年,国内外相关从业人员有望达 500 万。

而这一浩大的队伍里不只有此次被人社部列为新职业的 AI 训练师,从技术铺垫、实体应用,到架构维护、商业拓展,AI 人才队伍呵护人工智能整个生命周期的成长和开发,大量 AI 人才被纳入新一轮科技革命的轨道中。

外界普遍认为,新职业的发布,对于引领产业发展、促进就业创业、加强职业教育培训、增强对新职业从业人员的社会认同度等,具有重要意义。


目前,人工智能领域人才仍处于高速增长红利期。据 LinkedIn 发布的数据,人工智能机器学习相关的人才需求在从 2016 至 2019 年增长高达 74%,其中机器学习/深度学习工程师、数据科学家、AI 研究人员、和算法开发人员需求最高。全球 3.6 万 AI 专家中,相当部分拥有相关领域的博士学位。

与此同时,各大互联网企业都在将产品应用 AI 化的过程中,AI 逐渐成为提高企业生产力和商业效率的主流解决方案。根据 New Vantage Partners 在 2019 年底对 70 个 Fortune 1000 行业领先公司的调查,目前只有 14.6% 的公司将 AI 功能部署到生产流程中。

商业愿景与实际应用之间的差距预示着 AI 技术产品化和商业化的巨大潜力。TalentSeer 对 AI 初创公司的雇主调查显示 40% 的公司将「从研发向产品开发转变」列为 2020 年的主要业务方向。

AI 技术产品化和商业化的人才需求旺盛,但人才储备明显不足。接下来,AI 人才的需求也将从精英慢慢触达到更多人群。在 AI 训练师的职业成长路径中,由普通客服、一线工人转为 AI 训练师的案例数不胜数,侧面反映 AI 人才的真实需求要更加接地气。

行业变革意味着新职业不断涌现,但新职业发展中的最大问题是,相应的职业资格评定制度尚未补齐,如何对新职业进行职业资格评定仍是一大难题。

短时间内,企业将成为新职业技能等级认定的主体,以更灵活的方式解决新职业、新岗位的人才需求。

产业AI数据标注人工智能训练师人工智能
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。 阿里巴巴集团经营多项业务,另外也从关联公司的业务和服务中取得经营商业生态系统上的支援。业务和关联公司的业务包括:淘宝网、天猫、聚划算、全球速卖通、阿里巴巴国际交易市场、1688、阿里妈妈、阿里云、蚂蚁金服、菜鸟网络等。 2014年9月19日,阿里巴巴集团在纽约证券交易所正式挂牌上市,股票代码“BABA”,创始人和董事局主席为马云。 2018年7月19日,全球同步《财富》世界500强排行榜发布,阿里巴巴集团排名300位。2018年12月,阿里巴巴入围2018世界品牌500强。

https://www.alibabagroup.com/
相关技术
暂无评论
暂无评论~