Mihail Eric作者小舟编辑

抓取了1400家科技公司的招聘信息,我发现数据工程师比数据科学家更有市场

「作为数据科学家,我还有机会吗?」不,你更应该成为数据工程师。


数据无处不在,而且只会越来越多。在过去的 5-10 年内,数据科学已经吸引了越来越多的新人投身于此。

但如今数据科学的招聘状况如何?亚马逊 Alxea 团队的机器学习科学家 Mihail Eric 收集了多家公司的招聘信息后,在个人博客中撰写了一篇分析文章,阐述自己的思考。


数据胜于雄辩,他对自 2012 年以来 Y-Combinator 孵化的每家公司发布的数据领域职位进行了分析,研究问题包括:

  • 在数据领域,公司最常招聘的职位是什么?

  • 人们常讨论的数据科学家的需求究竟有多大?

  • 公司看重的这些技能是引发当今数据革命的技能吗?


以下是博客文章的主要内容:


方法

我选择对 YC 风投公司进行分析,这些公司声称将某种数据作为其价值主张的一部分。

主要关注 YC 是因为其提供了易于搜索(可抓取)的公司目录。此外,作为一个特别有远见的孵化器,它已经为全球众多领域的公司提供投资长达十年之久,我觉得他们为本次分析研究提供了一个具有代表性的市场样本。但请注意,我没有分析超大型科技公司。

我抓取了自 2012 年以来每家 YC 公司的首页网址,建立起一个包含 1400 家公司的初始池。

为什么是从 2012 年开始呢?2012 年,AlexNet 在 ImageNet 竞赛中获奖,掀起了如今机器学习和数据建模的热潮,最早的一批数据优先(data-first)公司由此诞生。


我对初始池执行了关键词过滤,以减少需要浏览的公司量。具体而言,我只考虑了其网站至少包含以下术语之一的公司:AI、CV、NLP、自然语言处理计算机视觉人工智能、机器、ML、数据。同时不考虑那些网站链接故障的公司。

这样的操作应该会产生大量错误的结果,我意识到将对各个网站进行更细粒度的手动检查以了解相关角色,因此我尽可能地优先考虑高召回率。

在这个筛选过的资源池中,我遍历了每个网站,找到了他们发布招聘信息的位置,并记下了标题中包含数据、机器学习、NLP 或 CV 的所有职位。这让我建立了一个来自大约 70 个不同公司的招聘职位的资源池。


也有点小失误:其中我错过了一些公司,有些网站虽然招聘信息很少,但是其实正在招聘。此外,有些公司没有正式的招聘页面,但而是要求应聘者直接通过电子邮件与他们联系。我忽略了这两种类型的公司,它们不在本次分析研究中。

另一件事是,这项研究的大部分都是在 2020 年的最后几个星期内完成的。随着公司定期更新招聘页面,开放的职位可能已经改变,但我认为这对得出的结论影响不大。

数据从业者应该负责什么?

在深入研究结果之前,值得花一些时间来搞清楚每种数据领域职位通常负责什么。我将花时间介绍以下四个职位:

  • 数据科学负责在统计和机器学习中使用各种技术来处理和分析数据,通常负责构建模型以探究从某些数据源中能够学到的内容,但模型通常是原型级别而非生产级别;

  • 数据工程师负责开发一套强大且可扩展的数据处理工具 / 平台,必须熟悉 SQL / NoSQL 数据库的整理和构建 / 维护 ETL 流水线;

  • 机器学习(ML)工程师通常既负责训练模型,又负责生产模型,他们需要熟悉一些高级 ML 框架,还必须能够轻松构建模型的可扩展训练,推理和部署流水线;

  • 机器学习(ML)科学家致力于前沿研究,他们通常负责探索可以在学术会议上发表的新想法。在移交给 ML 工程师进行生产之前,机器学习科学家通常只需要对新的 SOTA 模型进行原型制作。


值得一提的是,与传统数据科学家相比,开放数据工程师的职位增加了不少,在这种情况下,在公司雇用的原始量上,数据工程师比数据科学家多了大约 55%,而机器学习工程师的数量与数据科学家的数量大致相同。但如果查看各个职位的名称,就会发现似乎有些重复。


我只通过合并职位来提供粗略的分类即在不同职位角色负责的内容大致相同的情况下将其合并为一个名称。其中包括以下等价关系集:

  • NLP 工程师≈CV 工程师≈ML 工程师≈深度学习工程师(尽管领域可能不同,但职责大致相同)

  • ML 科学家≈深度学习≈ML 实习生

  • 数据工程师≈数据架构师≈数据主管≈数据平台工程师



按百分比描述的话是:



总体而言,合并会使差异更加明显。开放数据工程师比数据科学家多大约 70%。此外,开放 ML 工程师比数据科学家多大约 40%。机器学习科学家的数量也只有数据科学家的大约 30%。

结论

与其他数据驱动型职位相比,数据工程师的需求越来越高。从某种意义上说,这代表了该方向正朝着更广阔的领域发展。

5 到 8 年前,机器学习变得炙手可热,各个公司需要的是能够对数据进行分类的人才。但是之后 Tensorflow 和 PyTorch 等框架发展得很好,使得着手开始进行深度学习机器学习的能力大众化,随之而来的是数据建模技能商品化。如今,发展瓶颈在于帮助公司获得有关生产级别数据问题的机器学习和建模的意见。比如要考虑以下问题:

  • 如何注释数据?

  • 如何处理和清理数据?

  • 如何将其从 A 移到 B?

  • 如何尽快完成这些任务?




所有的这些都意味着,职位要求具有良好的工程技能,偏向于数据的传统软件工程可能是我们目前真正需要的。但是否意味着您不应该学习数据科学?并不是。而是意味着竞争将更加艰难。对于正准备训练成为数据科学人才的初学者来说,可用的职位将会越来越少。当然,有效地分析数据并从数据中提取可行见解的人一直需要,但这些见解必须是优秀的。

很明显,公司经常需要混合型数据从业者,即可以构建和部署模型的人。或者更简洁地说,可以使用 Tensorflow,但也可以从源代码构建它的人。

本研究的另一个发现是 ML 研究职位非常少机器学习研究倾向于获得相当大的资源支持,因为这是顶尖级的研究,例如 AlphaGo 和 GPT-3。但是对于许多公司,尤其是早期公司而言,顶尖的 SOTA 技术可能不再是必需的。达到最佳模型性能的 90%,同时扩展到 1000 个以上的用户,通常对他们来说更有价值。


但你可能会在工业界的研究实验室里找到很多这样的角色,他们可以在很长一段时间里承受资本密集型赌注,而不是在种子轮就开始做产业 demo 准备接 A 轮融资。

如果没有其他问题,我认为最重要的是让新来者对数据字段的期望合理并经过校准。我们必须承认,数据科学现在已经今非昔比,只有当我们知道自己身处何处时,我们才知道要去到哪里。
入门数据科学数据工程师
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

推荐文章
暂无评论
暂无评论~