王威力校对于腾凯编辑张睿毅 翻译

13大技能助你成为超级数据科学家!(附链接)

本文为你介绍超级数据科学家的13大基本技能。

(链接:https://www.linkedin.com/feed/update/

urn:li:activity:6531492123240431616 )

好的数据科学家和超级数据科学家有什么区别?

发布在领英上的问题令人惊讶的是,我得到了许多来自不同行业的顶级数据科学家的回应,他们都分享了他们的想法和建议,都很有意思且实用。

为了进一步了解优秀数据科学家和超级数据科学家之间的主要区别,我一直在互联网上搜索……直到我在KDnuggets上找到这篇文章(链接:https://www.kdnuggets.com/2018/05/simplilearn-9-must-have-skills-data-scientist.html )。

所以我提炼了所有的信息,列出了成为一名超级数据科学家的技能。

实际上,数据科学家不可能具备以下所列的所有技能。但在我看来,正是这些技能使超级数据科学家超越优秀的数据科学家。

在这篇文章的最后,我希望您会发现这些技能对您作为一名数据科学家的职业生涯有帮助。

我们开始吧!

成为超级数据科学家的13大技能

1. 教育

数据科学家受过高等教育,88%至少拥有硕士学位,46%拥有博士学位,尽管有一些例外,但通常需要很强的教育背景来培养成为数据科学家所必需的知识深度。要成为一名数据科学家,您可以获得计算机科学、社会科学、物理科学和统计学的学士学位。最常见的研究领域是数学和统计学(32%),其次是计算机科学(19%)和工程学(16%)。这些学位中的任何一个都将为您提供处理和分析大数据所需的技能。

在您的学位课程之后,您还没有完成。事实是,大多数数据科学家不仅拥有硕士学位或博士学位,他们还参加在线培训,学习如何使用Hadoop或大数据查询等技能。因此,您可以申请数据科学、数学、天体物理学或其他相关领域的硕士学位。您在学位课程中学到的技能将使您能够轻松过渡到数据科学

除了课堂学习之外,您还可以通过构建应用程序、创建博客或进行数据探查来练习您在课堂上学到的东西,从而收获更多。

在我看来,只要您能完成这项工作,拥有硕士学位或博士学位是可以选择的。在大多数工业界,解决业务问题最重要,并不一定要进行研究和部署尖端和新颖的机器学习模型。

参考这本免费电子书资源:74 secrets to become a pro data scientist(链接:https://datascientist88.bl

ogspot.com/2019/05/74-secrets-to-become-pro-data-scientist.html )

2. R语言编程

至少对分析工具中一个有深入的了解,对于数据科学R通常是首选。R是专门为数据科学需求而设计的。您可以使用R来解决您在数据科学中遇到的任何问题。事实上,43%数据科学家使用R来解决统计问题。然而,R有一个陡峭的学习曲线

特别是如果您已经掌握了编程语言,学习起来很困难。尽管如此,互联网上有很多资源可以让您开始学习R,比如Simplearn数据科学培训和R编程语言。对于有抱负的数据科学家来说,这是一个很好的资源。

3. Python编程

Python是最常见的数据科学角色所需要的编码语言,还有Java、PerlC/C++。对于数据科学家来说,python是一种很好的编程语言。这就是为什么O'Reilly调查的40%的受访者使用Python作为他们的主要编程语言的原因。

由于它的多功能性,您可以将Python用于几乎所有涉及到数据科学过程的步骤。它可以采用各种格式的数据,您可以轻松地将SQL表导入到代码中。它允许您创建数据集,您可以在谷歌上找到您需要的任何类型的数据集。

您可以通过以下书籍了解更多关于Python的基础知识以及它如何在数据科学中使用:

  • Python Data Science Handbook

    (链接:https://www.amazon.com/Python-Data-Science-Handbook-Essential-ebook/dp/B01N2JT3ST/ref=as_li_ss_tl?keywords=python+for+data

    +analysis&qid=1540663027&s=Books&sr=1-2&ref=sr_1_2&linkCode=ll1&tag=admond-20&linkId=0bb8a753123e4b54f1fa6dc463585e28 )

  • Python for Data Analysis

    (链接:https://www.amazon.com/Python-Data-Analysis-Wrangling-IPython-ebook/dp/B075X4LT6K/ref=as_li_ss_tl?keywords=python+for+data+analysis&

    qid=1540663027&s=Books&sr=1-1&ref=sr_1_1&linkCode=ll1&tag=admond-20&linkId=838bdee3bf4ca017f2bc905cd3680f71  )

  • Learning Python

    (链接:https://www.amazon.com/Learning-Python-5th-Mark-Lutz/dp/

    1449355730/ref=as_li_ss_tl?ie=UTF8&linkCode=ll1&tag=admond-20&linkId=4497aa20eee542a8c0d91e0467082b61 )

4. Hadoop 平台

虽然这并不是一项必备技能,但在许多情况下,它是首选的。有HivePig的经验也是一个不错的技能点。熟悉诸如AmazonS3之类的云工具也是有益的。一项由Crowdflower开展的调查发现,LinkedIn3490数据科学工作岗位中49%的岗位将Apache Hadoop列为第二大重要技能。

作为一名数据科学家,您可能会遇到这样一种情况:您所拥有的数据量超过了系统的内存,或者您需要将数据发送到不同的服务器,这就是Hadoop的由来。您可以使用Hadoop快速地将数据传输到系统上的各个点。还不止这些。您可以使用Hadoop进行数据探索、数据过滤、数据采样和汇总。

5. SQL数据库/编码

尽管NoSQLHadoop已经成为数据科学的一个重要组成部分,但是仍然要求一个数据科学家能够编写和执行复杂的查询SQL(结构化查询语言)是一种在数据库中进行增删改查的编程语言。它还可以帮助您执行分析功能和转换数据库结构。

作为数据科学家,您需要精通SQL。这是因为SQL是专门为帮助您访问、沟通和处理数据而设计的。当您使用它来查询数据库时,它会给您一些启发。它有简明的命令,可以帮助您节省时间,减少执行困难查询所需的编程量。学习SQL将帮助您更好地理解关系数据库,并提高您作为数据科学家的形象。

6. Apache Spark

Apache Spark正在成为全球最流行的大数据技术。它和Hadoop一样是一个大数据计算框架。唯一的区别是SparkHadoop快。这是因为Hadoop读取和写入磁盘,这会使磁盘速度变慢,但Spark会将其计算缓存在内存中。

Apache Spark专门为数据科学设计,以帮助更快地运行其复杂的算法。它有助于在处理大量数据时传播数据处理,从而节省时间。它还帮助数据科学家处理复杂的非结构化数据集。您可以在一台机器或一组机器上使用它。

Apache Spark使数据科学家能够防止数据科学中的数据丢失。Apache Spark的强大之处在于它的速度和平台,使其易于执行数据科学项目。使用Apache Sark,您可以执行从数据接收到分布式计算的分析。

7. 机器学习人工智能

有许多数据科学家并不精通机器学习领域和技术。这个领域包括神经网络强化学习、对抗性学习等。如果您想从其他数据科学家中脱颖而出,您需要了解机器学习技术,如有监督机器学习、决策树、逻辑回归等。这些技能将帮助您解决基于基于预测的不同数据科学问题。

数据科学需要在机器学习的不同领域应用以上技能。Kaggle的一项调查发现,有一小部分数据专业人员能够胜任高级机器学习技能,如监督机器学习、无监督机器学习、时间序列、自然语言处理、异常值检测、计算机视觉、推荐引擎、生存分析、强化学习以及对抗性学习。

数据科学涉及处理大量数据集操作。所以您可能需要先熟悉机器学习(链接:http://bit.ly/2N4i6za )。

8. 数据可视化

商业世界通常产生大量的数据。这些数据需要转换成易于理解的格式。自然地,人们更易理解图表和图表形式的图片,而不是原始数据。有句成语说:“一幅画胜过千言万语”。

作为一名数据科学家,您必须能够借助数据可视化工具(如ggplotd3.jsmatplotlibtableau)实现数据可视化。这些工具将帮助您将项目中的复杂结果转换为易于理解的格式。问题是,很多人不理解序列相关或p值。您需要直观地向他们展示这些术语在您的结果中代表了什么。

数据可视化为企业提供了直接使用数据的机会。他们能够迅速掌握有助于他们抓住新的商业机会并保持领先地位的洞察力。

特别是,我写了一篇文章(链接:https://towardsdatascience.com/storytelling-with-data-a-data-visualization-guide-for-business-professionals-97d50512b407 )来讨论数据可视化的重要性以及如何用数据创建更好的故事。

9. 非结构化数据

数据科学家处理非结构化数据的能力是至关重要的。非结构化数据无法在数据库表中定义的内容。包括视频、博客、客户评论、社交媒体帖子、视频提要、音频等,它们是大量的文本集中在一起。对这些类型的数据进行排序是困难的,因为它们不是流线型的。

由于非结构化数据分析的复杂性,大多数人将其称为“暗箱分析”。使用非结构化数据可以帮助您洞察对决策有用的见解。作为一名数据科学家,您必须能够理解和操作来自不同平台的非结构化数据。

10. 好奇性思维

“我没有特殊的才华,只有极强的好奇心。”

— Albert Einstein

毫无疑问,您最近到处都看到这个短语,尤其是与数据科学家有关。FrankLo描述了它的含义,并在几个月前发布的特邀专栏中谈到了其他必要的“软技能”。

好奇心可以定义为获得更多知识的渴望。作为一个数据科学家,您需要能够提出关于数据的问题,因为数据科学家花费80%的时间来发现和准备数据。这是因为数据科学领域是一个发展非常迅速的领域,您必须学习更多的东西来跟上这个步伐。

您需要定期通过在线阅读内容和阅读有关数据科学趋势的相关书籍来更新您的知识。不要被网络上大量的数据所淹没,您必须知道如何理解这些数据。好奇心是您成功成为数据科学家所需要的技能之一。例如,最初,您可能在收集的数据中看不到太多洞察。好奇心会让您通过筛选数据来找到答案和更多的见解。

11. 商业敏锐度

要成为一名数据科学家,您需要对您所从事的行业有一个扎实的了解,并知道您的公司正试图解决什么样的商业问题。在数据科学方面,除了确定业务应利用其数据的新方法外,能够识别哪些问题对于业务来说是重要的,这一点至关重要。

要做到这一点,您必须了解您解决的问题如何影响业务。这就是为什么您需要知道企业是如何运作的(参考:https://towardsdatascience.com/5-lessons-i-have-learned-from-data-science-in-real-working-experience-3532c1b41fd7 ),这样您才能把向正确的方向努力。

12. 沟通技能

寻找优秀数据科学家的企业需要可以将技术清楚地流畅地转化到非技术团队(比如市场营销或销售部门)中的成员。

数据科学家必须使企业能够通过为他们提供量化的结果来做出决策,并且必须了解他们的非技术同事的需求,以便应对由于数据产生的争议。

除了使用公司范围内的相通语言,您还需要使用数据讲故事来进行交流。作为一个数据科学家,您必须知道如何围绕数据创建一个故事线,以便于任何人理解。例如,呈现数据表不如以陈述故事的形式共享这些基于数据的洞察那么有效。使用讲故事将有助于您正确地向您的雇主传达您的成果。

在沟通时,请注意在数据分析中表述其结果和商业价值。大多数老板不想知道您分析了什么,他们感感兴趣的是数据分析结果将如何对业务产生积极作用。学会专注于通过沟通传递价值和建立持久的关系。

(参考:https://towardsdatascience.com/5-lessons-i-have-learned-from-data-science-in-real-working-experience-3532c1b41fd7 )

13. 团队合作

数据科学家不能独自工作。您必须与公司高管合作制定战略,与产品经理和设计师合作创造更好的产品,与营销人员合作开展更好的转化活动,与客户和服务器软件开发人员合作创建数据管道和改进工作流。实际上,您必须与组织中的每个人,包括您的客户一起工作。

本质上,您将与您的团队成员合作开发用例,以了解解决问题所需的业务目标和数据。您将需要知道解决用例的正确方法,解决问题所需的数据,以及如何将结果翻译并呈现到每个相关人员都能容易理解的地方。

最后几点思考

感谢您的阅读。

如果您被所需的技能所震撼到,那就太好了(因为我也是!)。

在一天结束的时候,这些技能不一定要成为一个数据科学家,但它们肯定会使您不同于其他典型的数据科学家。

我知道您独一无二。

和以前一样,如果您有任何问题或意见,请随时在下面留下您的反馈,或者随时可以在LinkedIn上联系我。下一个帖子见!

原文链接:

https://towardsdatascience.com/top-13-skills-to-become-a-rockstar-data-scientist-faf2f97e655d                                                           

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

入门机器学习SQLHadoopPythonR语言数据科学
2
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

逻辑回归技术

逻辑回归(英语:Logistic regression 或logit regression),即逻辑模型(英语:Logit model,也译作“评定模型”、“分类评定模型”)是离散选择法模型之一,属于多重变量分析范畴,是社会学、生物统计学、临床、数量心理学、计量经济学、市场营销等统计实证分析的常用方法。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

结构化数据分析技术

结构化数据分析是结构化数据的统计数据分析。 以诸如多选问卷之类的先验结构的形式出现,或者在需要精确或近似地搜索适合给定数据的结构的情况下出现。 这种结构可用于进行比较、预测、操作等。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

学习曲线技术

在机器学习领域,学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

Apache Spark技术

Apache Spark是一款快速、灵活且对开发者友好的工具,也是大型SQL、批处理、流处理和机器学习的领先平台。它是一个围绕速度、易用性和复杂分析构建的大数据处理框架,提供了一个全面、统一的框架用于管理各种不同性质(文本数据、图表数据等)数据集和数据源(批量数据或实时的流数据)的大数据处理的需求。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

查询语言技术

查询语言泛指向数据库或信息系统查询的各种编程语言。 查询语言必须要能表达所有关系代数所能表达的查询,这样才被称为关系完整的。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

关系数据库技术

关系数据库,是创建在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。现实世界中的各种实体以及实体之间的各种联系均用关系模型来表示。关系模型是由埃德加·科德于1970年首先提出的,并配合“科德十二定律”。现如今虽然对此模型有一些批评意见,但它还是数据存储的传统标准。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

Apache Hadoop技术

Apache Hadoop是一套用于在大型集群上(由通用硬件构建)运行应用程序的框架。它实现了Map/Reduce编程范型,计算任务会被分割成小块(多次)运行在不同的节点上。除此之外,它还提供了一款分布式文件系统(HDFS),数据被存储在计算节点上以提供极高的跨数据中心聚合带宽。

数据可视化技术

数据可视化被许多学科视为现代视觉传达的等价物。为了清晰有效地传递信息,数据可视化使用统计图形、图表、信息图和其他工具。数字数据可以使用点、线或条编码,以视觉传达定量消息。有效的可视化帮助用户对数据进行分析和推理。它使复杂的数据更容易理解和使用。用户可以根据特定的分析任务进行数据可视化,例如进行比较或理解因果关系,并且图形的设计原则(即,显示比较或显示因果关系)来进行可视化。表通常用于用户查找特定测量的地方,而各种类型的图表用于显示一个或多个变量的数据中的模式或关系。

暂无评论
暂无评论~