涂世文、蒋宝尚、魏子敏编译

Kaggle 2018社区调研出炉:女性从业者比例降低,00后登上历史舞台!

不管是初学者还是大魔王,只要浸润过数据科学机器学习界,那么对于Kaggle一定不陌生。各路英豪在这个平台上实战练习、膜拜大神、打怪升级,用某个媒体人的一句话,“简而言之,Kaggle 是玩数据、机器学习的开发者们展示功力、扬名立万的江湖。

Kaggle之所以成为继Deepmind之外,谷歌收购的另一家震动业界的企业,得益于其对于竞赛平台和社区运营的专注:活跃用户基数大(具体数据从50万到100万仍有待确认)、粘性强。

每年,基于自己庞大的数据科学用户,Kaggle社区都会进行一场问卷调研来了解社区发展,其结果对于整个数据科学以及机器学习领域的发展都是一次很好的反馈。上个月,2018年的Kaggle调研《2018 Kaggle机器学习数据科学调研》顺利完成并发布,一起来看看今年机器学习数据科学领域有哪些新的变化。

右侧显示了数据来源

本次调研涉及用户信息、工作习惯、数据使用行为、数据分析工具、数据偏见算法黑盒伦理问题等各方面的50个问题,共回收有效问卷23859份。

除了问卷本身,结合一些其他相关信息和可视化,我们可以得到一些有趣的故事。

是的,女性从业者还在减少!

在上图中,我们设计数据可视化,使用了超级英雄的主题风格,其中,#batman(代表男性)和#wonderwoman(代表女性)

在这一领域,男多女少的问题一直存在,且并没有得到改善。

Kaggle 2015 年的调查显示,数据科学岗位中女性所占的比例只有26%,而在2018年的调研中,女性填写者的占比仅为16.8%。相比三年前,女性从业者的比例下降了。

尽管调研结果和数据科学从业者的真实性别构成仍有一定偏差,但是这一结果还是从一定程度反映了,在技术领域女性角色的缺失。

这显然并不是一件好事情。福布斯杂志甚至认为,女性比例的失衡导致了女性视角缺失,进而产生一些“盲点”,这是导致类似2018年谷歌大规模罢工等极端事件发生的重要原因。

00后登场,90后数据科学家占主力

上图展示了Kaggle用户的年龄分布情况。将条形图分解和重构成可用知识的一种方法是减少它们的数量,并以熟悉的形式将它们分组。

数据从业者的年龄普遍比较小,从调研数据来看,问卷填写者中占比最高的为25-29岁的年龄段;18-21岁的从业者也开始占据重要比重。也就是说,至少在数据科学界,00后已经开始登上舞台。

比如今年9月份,17岁的英国高中生Mikel Bober-Irizar就成为了Kaggle史上最年轻的Grandmaster,并且自己透露相关知识都来自自学。

是的,数据科学家很有钱!

问卷问题:你的年收入是多少?

将2018年调研结果与全球收入水平一起对比可以发现,23%受访者跻身全球财富榜的前1%!

其实,在美国,只有跻身1%的精英阶层,每年的收入才超过42 万美元。大约有23%的受访者认为他们达到了这个水平。

此外,大约6%的人隶属全球财富排行前10%,在美国,10%人群的收入大约是166000美元。

然而,这些数字反映的是美国家庭收入的水平。在全球范围内,跻身前1%的年收入大概是3.2万 。有60%的受访者跻身前1%。60%与1%差距甚大,所以在全球范围内,这个数据并不足以支持包容性的论断,因为它并没有反映全局分布情况。

Kaggle竞赛冠军最常用的机器学习框架

根据调研结果,Kaggle用户最长使用的机器学习框架是Sci-Kit,占据了48%的份额,TensorFlow占据了16%,紧随其后的Keras占据了14%。

而对于数据分析来说,多数从业者推荐你从Python开始学习,远高出排名二三的R、SQL占比。

金砖国家正成为社区新生力量发源地

新兴的数据科学家主要来自哪里?1145名新受访者被认定为“数据精简主义者”,其中2018年增加了100多个国家的问卷填写者,分别来自美国、印度、中国、俄罗斯、巴西等地区。

将这些国家按经济水平划分(美国、欧洲、金砖四国和世界其它地区)更有意义。从上图可以看到,金砖四国不仅以2018年总增长率的42%为增长贡献最大,而且是三大经济体中增长最快的。2018年,在“定义自己为数据科学家的用户”类别中,欧洲增加了302个用户,美国131个,世界其他地区231个,金砖四国:481个。关于增长率,根据预测,2020金砖国家将超过欧洲和美国的总和。

新加坡Kaggle用户占比最多,美国被挤出TOP5

尽看各国用户数似乎并不能说明该国的数据科学家有多流行。

当我们将这个国家的问卷填写人与该国人口进行比例运算时,可以看到一个更有意义的排行榜:数据科学家流行率。

问卷用红色标示顶级国家,新加坡、以色列占据冠亚军,用黑色标示美国(最大的调查社区所在地),仅占第六位。

  • US 均值: 0.14 per 10,000

  • EU6 均值*: 0.09 per 10,000

  • BRICS 均值*: 0.03 (5x less than US)

从图中,我们可以看出:美欧差距约为50%。然而,英国意味着接近EU6的平均值,而不是美国的平均值。这是否意味着我们放弃语言障碍作为解释差距的因素?注:金砖四国和欧盟6的平均值是国家平均值,不由受访者加权。

另外,在这个部分的可视化部分可以聊聊审美思考:这个配色方案叫做灰红配色,这是非常棒的图表配色方案。不像其他的方案,如灰色-灰色,它是中性的。然而,为了使它呈现好的视觉效果,红色表面尽可能小,否则会产生喧宾夺主的视觉效果。灰色-灰色的方案没有这个限制。然而,灰色-红色有一个秘密优势。通常,在图表中使用三种颜色会造成混乱,但是因为红色和任何灰色阴影之间的色度距离都很大,所以我们可以通过使用黑色(作为灰色的85%)作为第三种颜色来避免混乱的折衷。

创新水平(~80% 的相关性)

每年,Insead、Cornell和Wipo都会发布当年的全球创新指数。2018年,当选最具创新力的国家是Switzerland。依据Spearman相关系数计算结果显示,指数和用户流行(User Prevalence)之间的相关度达到了79%。

使用均值回归进行预测

上图添加了一条回归直线。灰色部分表示95%的SE水平。不同的国家分布在直线的上下方。被红色特别标注的国家是日本,作为一个“离群点”,有着很高的创新水平(y)经济发展水平(x)却比较低。在这里,应用均值回归的准则我们会发现,彷佛有一只看不见的手推动着这些国家朝着均值(图中虚线部分)的方向靠近。

可视化支持方面

上图显示了最常用的可视化工具。这是著名的图表模板Marimekko和符号图表Shiva House的组合。象征意义:柱子,即在支撑社区可视化努力(屋顶负荷)方面的力度。“列”的宽度表示每个列支持多少工作/负载。右边的灰色列表示其他不太主流的库,如:D3、Shiny、bokeh、Leaflet、Lattice。

最后,感兴趣的读者可以戳下边的链接获取完整的Kaggle 2018调研结果和相关数据哦👇

https://www.kaggle.com/paultimothymooney/2018-kaggle-machine-learning-data-science-survey

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

产业机器学习Kaggle就业
1
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

重构技术

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

张量技术

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

推荐文章
暂无评论
暂无评论~