概述
数据科学的工具数不胜数——你应该选择哪一个?
这里列出了超过20种的数据科学工具,满足数据科学生命周期不同阶段的需求。
引言
目录
深入大数据 – 处理大数据的工具
体量
种类
速度
数据科学的工具
报告和商业智能
预测建模和机器学习
人工智能
大数据的数据科学工具
体量
种类
速度
处理大数据体量的工具
Microsoft Excel–Excel是处理少量数据的最简单,最受欢迎的工具。它支持的最大行数只刚刚超过一百万,一张表一次最多只能处理16,380列。当数据量很大时,这些根本不够用。
Microsoft Excel:
https://www.analyticsvidhya.com/blog/category/excel/?utm_source=blog&utm_medium=22-tools-data-science-machine-learning
Microsoft Access –它是Microsoft流行的用于数据存储的工具。使用此工具可以平稳顺畅地处理高达2Gb的较小数据库,但超过这个数字,Access会开始崩溃。
SQL – SQL是自1970年代以来最流行的数据管理系统之一。几十年来,它一直是主要的数据库解决方案。SQL仍然很流行,但有一个缺点——随着数据库的不断增长,很难对其进行扩展。
Hadoop –它是一个开源的分布式框架,用于管理大数据的数据处理和存储。当你从零开始构建机器学习项目时,很可能会使用此工具。
Hive –它是建立在Hadoop之上的数据仓库。Hive提供了一个类似于SQL的接口来查询存储在与Hadoop集成的各种数据库和文件系统中的数据。
处理大数据种类的工具
数据种类是指存在的不同类型的数据。数据类型可以是以下之一:结构化和非结构化数据。
处理大数据速度的工具
第三个,也是最后一个V代表了速度。这是捕获数据时的速度,包括实时和非实时数据。我们在这里将主要讨论实时数据。
闭路电视
股票交易
信用卡交易欺诈检测
网络数据——社交媒体(Facebook、Twitter等)
Apache Kafka – Kafka是Apache的开源工具。它用于创建实时数据管道。Kafka的一些优点在于——它具有容错性、速度很快,并且被大量机构投入生产使用。
Apache Storm – Apache的该工具几乎可用于所有编程语言。它每秒可处理多达100万个元组,并具有高度的可扩展性。对于高数据速率来说,这是个好工具。
Amazon Kinesis – 亚马逊提供的此工具类似于Kafka,但需要付费。然而,它提供的是开箱即用的解决方案,这使其成为组织机构的强势的备选方案。
Apache Flink – Flink是Apache另一种可用于实时数据的工具。Flink的优点在于它的高性能、容错能力和有效的内存管理。
广泛使用的数据科学工具
如果你要建立一个全新的数据科学项目,那么脑海中会浮现很多问题,这与你的水平无关——无论你是数据科学家,数据分析师,项目经理还是高级数据科学主管,都是如此。
报告和商业智能
让我们从这个范围的底端开始。报告和商业智能使一个机构能够识别出数据的趋势和模式,从而制定关键的战略决策。这种分析的类型包括MIS、数据分析和仪表板。
Excel – 它提供了多种选择,包括了数据透视表和图表,使你可以快速分析数据。简而言之,它是数据科学/分析工具中的“瑞士军刀”。
QlikView – 您只需单击几下即可合并,搜索,可视化和分析所有数据资源。这是一种易于学习的直观的工具,因此非常受欢迎。
Tableau – 它是当今市场上最受欢迎的数据可视化工具之一。它能够处理大量数据,甚至提供类似于Excel的计算功能和参数。Tableau因其整洁的仪表板和故事界面而倍受赞誉.
https://courses.analyticsvidhya.com/courses/tableau-2-0?utm_source=blog&utm_medium=22-tools-data-science-machine-learning
Microstrategy – 它是另一个BI工具,支持仪表板、自动分发和其他关键数据分析任务。
PowerBI – 它是商业智能(BI)领域中的Microsoft产品。PowerBI旨在与Microsoft技术进行集成。因此,如果你的组织有Sharepoint或SQL数据库用户,那么你和你的团队将会喜欢这个工具。
Google Analytics – 想知道Google Analytics如何进入此名单的吗?嗯……数字营销在业务转型中起着重要作用,没有比它更好的工具可以用来分析你的数字化工作。
预测分析和机器学习工具
Python – 由于其易用性,灵活性和开源特性,Python是当今行业数据科学中最主要的语言之一。它已经在ML社区中迅速普及并被广泛接受。
R – 它是数据科学中另一种非常常用且受人尊敬的语言。R有一个蓬勃发展且被极大支持的社区,附带了许多软件包和库,支持大多数的机器学习任务。
Apache Spark – Spark由加州大学伯克利分校于2010年开源,此后已成为最大的大数据社区之一。它被称为大数据分析的“瑞士军刀”,因为它具有多种优势,例如灵活性、速度、计算能力等。
Julia – 它是一种即将到来的语言,被捧为Python的继承者。目前它仍处于起步阶段,观察其在未来的表现将会是一件有趣的事。
Jupyter Notebooks – 这些笔记本广泛用于Python编程。尽管它主要用于Python,但它也支持其他语言,例如Julia,R等。
SAS – 这是一个非常受欢迎且功能强大的工具。在银行和金融部门中被普遍使用。它的使用在美国运通,摩根大通,西格玛,苏格兰皇家银行等私人组织中占有很高的份额。
SPSS – SPSS是“社会科学统计软件包”的缩写,在2009年被IBM收购。它提供高级统计分析、庞大的机器学习算法库、文本分析等。
Matlab – Matlab在组织机构的领域里确实被低估了,但在学术界和研究部门中得到了广泛的使用。最近相较于Python,R和SAS,Matlab已经阵地失守,但是大学(尤其在美国)仍在使用Matlab教授许多本科课程。
深度学习的通用框架
深度学习需要大量的计算资源,并且需要特殊的框架才能有效地利用这些资源。因此,你很可能需要GPU或TPU。
TensorFlow – 它很容易成为当今行业中使用最广泛的工具。Google可能与此有关!
PyTorch – 这种超级灵活的深度学习框架正在成为TensorFlow的强势竞争对手。PyTorch最近受到一些关注,它的开发者是Facebook的研究人员。
Keras和Caffe是广泛用于构建深度学习应用程序的其他框架。
人工智能工具
AutoML的时代就在这里。如果还没有听说过这些工具,那么这是一个自我学习的好机会!作为数据科学家,你很可能会在不久的将来与他们合作。
尾注
原文标题:
22 Widely Used Data Science and Machine Learning Tools in 2020
原文链接:
https://www.analyticsvidhya.com/blog/2020/06/22-tools-data-science-machine-learning/
译者简介
欧阳锦,我是一名即将去埃因霍芬理工大学继续攻读数据科学专业的硕士生。本科毕业于华北电力大学,自己喜欢的科研方向是隐私安全中的数据科学算法。有很多爱好和兴趣(摄影、运动、音乐),对生活中的事情充满兴趣,是个热爱钻研、开朗乐观的人。为了更好地学习自己喜欢的专业领域,希望能够接触到更多相关的事物以开拓自己的眼界和思路。