AlgorithmDog作者

算法工程师眼中的AI岗位

人工智能的飞速发展导致了某些工作岗位因自动化操作取代手动操作而减少甚至消失,技术进步带来的欢欣鼓舞填补不了部分人因失业而导致的失落。然而,人工智能不仅仅“消灭”工作岗位,同时也会创造另外一些工作机会。这些新的工作机会是什么?与近年来大火的人工智能三大主义、机器学习深度学习大数据等概念又有哪些关系?

一、人工智能三大主义能为我们创造什么工作?

作为近年来在无论在科技领域还是投资领域都非常火爆的概念,人工智能并不是什么新技术。早在计算机被发明伊始,科学家们就在考虑用计算机技术实现人工智能了。1946 年 2 月 14 日,世界上第一台电脑 ENIAC 在美国宾夕法尼亚大学诞生。1956 年,“人工智能之父”John McCarth 在达特矛斯会议上提出将 “人工智能就是要让机器的行为看起来像人所表现出的智能行为一样”。在如何实现人工智能这个话题领域,科学家们有着不同理念和想法。这些理念和想法后来被归结为人工智能三大主义。

1)符号主义

符号主义者认为人工智能源于数理逻辑, 可以通过在计算机上进行逻辑演绎的方式实现人工智能。在 1956 年首先使用 “人工智能” 这个术语的正是符号主义者。,在 20 世纪 80 年代,由符号主义发展出专家系统取得很大发展。人们在开发专家系统时发现其瓶颈,计算机没有常识储备:计算机并不知道什么是奥巴马,什么是美国,更不知道奥巴马曾经是美国总统。为了解决这个问题,人们开始构建常识知识库(简称常识库),常识库是一个包含了大多数人所具备的一般知识的数据库。后来常识库升级为语义网,而语义网知识图谱的前身。现在符号主义整体进入冷寂期,但知识图谱作为符号主义的余脉依然活跃在学术研究和工业应用中。

下图正是符号主义为我们创造的工作岗位:知识图谱工程师,其岗位职责是负责建立和维护知识图谱。由于现在的知识图谱是从 Wikipadia 抽取信息,需要正确处理文本,因此知识图谱岗位需要具备一定的自然语言处理能力。

2)行为主义

行为主义借鉴了心理学的行为主义,认为智能就是 “感知-动作”,即感知外界环境并反馈正确的动作。实现 “感知-动作” 模型的基础是控制论思想,控制论在 20 世纪 40~50 年代就成为时代思潮的重要部分。行为主义一直致力于智能控制和智能机器人的研究。时至今日,具有“自己行走”、“搬运东西”和其他功能的实体智能机器人依然是研究的热点。下图是由大名鼎鼎的波士顿机器人公司研发的四足行走机器人 (人称大狗)。

当前行为主义并不是人工智能领域的主流,但正如符号主义有一个受人关注的延续 (知识图谱),行为主义也启发了一个著名的分支——强化学习。在早期的控制论中,人们已经开始探索类似于强化学习的机制。强化学习关注决策者与其环境交互时所面临的学习问题,有点类似于 “感知-动作” 模式。不同点在于强化学习更强调学习,因此强化学习最终被归入了机器学习,成为机器学习三大模式(有监督学习、无监督学习强化学习)之一。

3)连接主义

连接主义认为人工智能应模拟大脑连接结构,从而建立了神经网络模型。早在计算机诞生前,心理学家 W·Mcculloch 和数理逻辑学家 W·Pitts就提出神经元的数学模型。1948 年,首台计算机设计者冯·诺依曼也研究过神经网络。50年代末,F·Rosenblatt 制成了一层神经网络模型 “感知机”,神经网络从思想走向现实。但 1968 年一本名为《感知机》的著作指出,线性感知机功能是有限的,它甚至不能解决异或这样的基本关系。神经网络的研究进入了低潮。

1986 年,Rumelhart 为首的研究小组提出了反向传播算法,使得能够逼近复杂函数 (当然包括异或) 的三层神经网络可以被训练。神经网络第二次兴起。1995 年,SVM 算法被提出,成为神经网络的强劲对手。神经网络进入了第二次低潮。

2006 年,Hinton (也就是 1986 年那篇反向传播算法论文的共同作者) 提出了用 AutoEncoder 初始化神经网络参数,再进行训练的方法,使得表达能力更强的多层神经网络成为可能。随后,多层神经网络在不同竞赛中取得了远比其他方法好的成果。神经网络第三次兴起。

神经网络起起落落的这些年里,一位未来的王者开始登上历史的舞台,那就是机器学习。连接主义是机器学习中学习概念的重要思想源头,神经网络也是机器学习重要模型,机器学习则包含了更多的内容。现在,机器学习驰名当世、声名远扬,盖住了传统人工智能的风头,以至于很多人误以为人工智能就是机器学习

人工智能工程师做的产品大部分和机器学习相关。如下图中,尽管工作职位的称呼是人工智能算法工程师,但绝不是让你去开发专家系统, 而是让你做与学习相关的工作。

二、机器学习热潮带来的职业机会 

1986 年是令人振奋的一年。在这一年,反向传播算法问世,标志着连接主义的载体神经网络第二次兴起。也是这一年,Quinlan 提出了著名的 ID3 决策树算法,开启了学习道路的另一条分支。这条树模型的分支持续演化到了今天,依然在人类工业实践和学术研究中扮演着重要角色。后来,科学家们陆续将统计学的算法引入该领域,如回归和聚类;开始为机器学习建立了数学基础,如 VC 维;或者提出了新的算法,如 SVM 和 RandomForest。这些新思想、新算法远远超出了连接主义 “模拟大脑连接结构” 的原定义,再称之为连接主义已经不合适了,于是人们将神经网络和这些新思想新算法命名为机器学习机器学习依然是 “要让机器的行为看起来像人所表现出的智能行为一样”,即依然是人工智能的范畴。

在讲人工智能连接主义时,我们提到了神经网络第三次的兴起,源于Hinton 在 2006 年发表的一篇关于 “有效训练多层神经网络的方法” 的论文。由此神经网络极大地提升了自己的性能,尤其在图像和语音领域。多层神经网络结构效果太好了,以至于人们接受了 Hinton 提出的深度学习的称呼。深度学习从 2006 年第一篇论文开始,至今已占据了机器学习领域的主流地位,不过短短十年。深度学习的火爆,导致我们需要特别澄清深度学习机器学习之间的关系:人工智能包含机器学习,而机器学习包含深度学习

机器学习尤其是深度学习需要用大量的数据进行高效训练。这需要一个高效的机器学习平台。即使现在有了 TensorFlow 之类的开源机器学习平台,也需要工程师将其改造并部署到集群中,以让其高效工作。因此机器学习专门有一个机器学习系统方向,研究如何设计并实现高效的分布式机器学习平台。

在工作职位上,相关职位有:机器学习工程师和机器学习平台工程师。前者的工作职责是将机器学习算法应用在现有业务上,后者的工作职责则是建设并维护分布式机器学习平台。

还有一个相关工作职位是算法工程师。这里所指的算法不是计算机基础算法(如动态规划),而是机器学习算法。笔者个人认为应该称为机器学习算法工程师更加恰当。这个职位和机器学习工程师类似。另外一个职位是深度学习工程师。由于近年来深度学习非常火爆,不少公司对于深度学习方向的人员需求迫切,于是产生了深度学习工程师的职位。

随着人们在机器学习领域取得突破,机器学习的思想和方法开始影响不同的领域。

1)数据挖掘

数据挖掘拥有很多定义, 其中一个比较有名的定义为 “一门从大量数据或者数据库中提取有用信息的科学”。大部分人是通过一个案例认识到数据挖掘:这是因为沃尔玛通过数据分析发现,男性顾客在购买婴儿尿片时,常常会顺便搭配几瓶啤酒来犒劳自己,于是尝试推出了将啤酒和尿布摆在一起的促销手段;没想到这个举措居然使尿布和啤酒的销量都大幅增加了。虽然这个故事很可能是假的(Teradata公司一位经理编出来的“故事”目的是让数据分析看起来更有力更有趣), 但是确实让不少人开始接触数据挖掘

我们似乎能感受数据挖掘的企图心:从数据出发,建立一个类似现在机器学习那样庞大的科学体系。开普勒从第谷的大量资料中发现行星运动规律的历史,“啤酒和尿布” 的故事,从数据中发现的相关关系将替代因果关系的宣言,是数据挖掘理论高度和实际应用的背书,是数据挖掘实现企图心的见证。一山哪能容二虎,数据挖掘机器学习正面交锋了。它们之间有很多重合的地方,如下图所示。在重合部分的分类、聚类和回归上,机器学习有高层次的理论分析,有高效的训练方法;在非重合部分,机器学习有很多数据挖掘没有的东西,比如学习理论和强化学习。在机器学习崛起的背景下,我们很难说清楚数据挖掘区别于机器学习的独特价值是什么了。历史给机器学习加了冕。

在工作岗位方面,我们似乎看到很多数据挖掘工程师成了机器学习工程的别称,毕竟它们之间有太多的重合。但有一种情况例外: 如果推荐系统和广告系统部门招聘,机器学习工程师偏重于点击率预估算法的实现和改进,数据挖掘工程师则偏重于新特征的挖掘。

2)推荐系统和广告系统

推荐系统和广告系统都是工业级的大系统,需要各个子系统相互协调配合,但都以机器学习建构其中一个核心子系统 —— 点击率预估 (CTR)。推荐系统和广告系统对现在的人工智能有很重要的意义。即便现阶段人工智能的几个创新点(人脸识别、对话机器人和无人驾驶等)失败,人工智能也不会面临“The winter is coming”的惨状,因为推荐系统和广告系统能直接产生收益。根据艾瑞发布的《2016Q1网络广告营收报告》,2016 年第一季度中国网络广告市场规模达543.4亿元。再加上收益不菲的推荐系统人工智能社区能够全身而退,重新回到 “世界上最聪明的一群人,每天研究的是如何让人更多地点广告”时代 。

推荐系统和广告系统作为能直接带来效益的部门,自然需要招聘专门的推荐算法工程师和广告算法工程师。推荐算法工程师和广告算法工程师的主要职责分别是建立推荐和广告的点击率预估。

3)搜索引擎

搜索引擎更是一个工业级的大系统。不把搜索引擎、推荐系统和广告系统并列在一起,是因为机器学习并不是搜索引擎的核心部件。基于可解释和可控制的因素,搜索引擎的网页排序大量基于规则,而不是机器学习模型。同时信息采集 (爬虫子系统) 和信息组织 (信息检索子系统)等非机器学习部件都在搜索引擎中扮演着非常重要的角色。但机器学习在搜索引擎中也起了一定作用, 比如需要查询词的意图。因此,搜索工程师指的是负责搜索引擎的各个模块的工程师。

4)自然语言处理计算机视觉语音识别

自然语言处理要让计算机理解和生成人类语言,是机器学习和语言学融合的产物。自然语言处理的经典任务包括分词、词性标注、语法树解析、机器翻译和人机对话等等。5 年前,除了百度百度很早就成立了单独的自然语言处理部门),大部分公司都不单独招聘自然语言工程师,而是将自然语言处理作为推荐系统、广告系统和搜索引擎的子模块。比如搜索引擎中的 query 分词就是一个典型的分词任务。近几年,由于大量的人机对话项目和少部分机器翻译项目的需求,导致很多公司开始单独招聘自然语言工程师。下图就是来自腾讯自然语言处理的招聘职位,可以看出这个职位的要求就是做对话机器人。

计算机视觉要让计算机理解和生成图像,是机器学习图像处理融合的产物。计算机视觉深度学习大发展的今天,取得了巨大的突破。虽然计算机视觉的商业应用场景还在探索中,一些大公司和创业公司已经开始招聘计算机视觉工程师。由于最近几年计算机视觉的突破几乎都是由深度学习进步带来的,因此计算机视觉工程师需要有深度学习的知识和背景。

同样得益于深度学习的进步,语音识别也取得了突破。语音识别指的是将说话的音频转成文字的过程。随着语音识别的进步,一些大公司和创业公司开始招聘专门的语音识别工程师, 语音识别工程师的主要职责是负责建立和维护语音识别系统。市场上语音识别的训练数据非常少,收集和整理数据也是职责之一。

三、人人都在谈的大数据,为我们创造了哪些工作岗位?

人工智能密切联系的领域是大数据。目前大数据在业界的概念比较宽泛,如 4v 、 5v 等 (IBM 咨询提出,大数据有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)),以至于 “人人都在谈大数据,但没人知道大数据究竟是什么”。 但在技术上,大数据技术的定义是非常明确的,指的是一系列处理和存储海量数据的技术。大数据技术的起点应该是人称 Google 三驾马车的三篇论文: Google FS、 MapReduce 和 Bigtable。受到这三篇论文影响, Doug Cutting 等人陆续改进其负责的 Apache Nutch 项目,于 2006 年完成了一套独立而完整的软件, 并将其命名为 Hadoop。其后大数据技术的发展如下图所示 (该图最早来源于微博)。目前最主流的大数据处理平台是 Spark。

大数据领域妖孽多, 业内人有一句戏谑:“凡是提 4v 的大数据都是骗子”。虽然这句话可能会得罪不少人,但鉴于不少人把 excel 级别的数据处理也称为大数据,我们还能说什么呢?

市场上对大数据工程师的需求非常迫切,其主要职责是使用开源大数据平台,建立和维护大数据集群。在某些公司,大数据工程师还负责公司内产生数据的收集、整理和入库。

四、人的数据分析,产生了哪些职位?

数据分析指的是是用适当的统计方法对数据进行分析,发现数据中规律,从而帮助业务发展。这个工作和数据很近,要求从业人员对数据敏感,和人工智能比较远。主要发挥人的主观能动性,而不是使用算法效能。数据分析的对象是人,而不是机器。

举个例子,漏斗模型是经典的消费者模型(如上图),如果网站改版之后,数据分析发现转化率变低,这就需要分析原因了,如是不是点击按钮不够明显。根据这些分析结果,能够持续优化网站。数据分析有自己的故事,“商业智能”、“数据驱动” 和 “增长黑客” 都是数据分析饱含理想和格调的称呼。下面是一个典型的数据分析职位的例子。

五、结论

人工智能机器学习深度学习大数据等概念关系密切,相互之间有很深的渊源,导致相应工作职位内涵重叠。例如深度学习工程师很大概率从事计算机视觉相关的工作,而计算机视觉工程师必须有深度学习背景和知识。

回到文章开头的问题,虽然人工智能的出现导致了某些工作岗位的消亡,但人工智能三大主义、机器学习深度学习大数据等新兴领域也创造了大量的新型的工作职位。这是人工智能深刻影响经济活动和社会生活的缩影,是这个时代的注脚。

腾讯技术工程
腾讯技术工程

腾讯技术工程事业群在机器之心的内容专栏

产业大数据语音识别计算机视觉自然语言处理搜索引擎推荐系统数据挖掘机器学习连接主义行为主义符号主义算法工程师
4
相关数据
IBM机构

是美国一家跨国科技公司及咨询公司,总部位于纽约州阿蒙克市。IBM主要客户是政府和企业。IBM生产并销售计算机硬件及软件,并且为系统架构和网络托管提供咨询服务。截止2013年,IBM已在全球拥有12个研究实验室和大量的软件开发基地。IBM虽然是一家商业公司,但在材料、化学、物理等科学领域却也有很高的成就,利用这些学术研究为基础,发明很多产品。比较有名的IBM发明的产品包括硬盘、自动柜员机、通用产品代码、SQL、关系数据库管理系统、DRAM及沃森。

https://www.ibm.com/us-en/
相关技术
冯·诺依曼人物

约翰·冯·诺伊曼(德语:John von Neumann,1903年12月28日-1957年2月8日),原名诺依曼·亚诺什·拉约什(匈牙利语:Neumann János Lajos),出生于匈牙利的美国籍犹太人数学家,现代电子计算机与博弈论的重要创始人,在泛函分析、遍历理论、几何学、拓扑学和数值分析等众多数学领域及计算机学、量子力学和经济学中都有重大贡献。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

动态规划技术

动态规划(也称为动态优化),是一种在数学、管理科学、计算机科学、经济学和生物信息学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划将复杂的问题分解成一系列相对简单的子问题,只解决一次子问题并存储它的解决方案(solution),下一次遇到同样的子问题时无需重新计算它的解决方案,而是简单地查找先前计算的解决方案,从而节省计算时间。动态规划适用于有最优子结构(Optimal Substructure)和重叠子问题(Overlapping Subproblems)性质的问题。

专家系统技术

专家系统(ES)是人工智能最活跃和最广泛的领域之一。专家系统定义为:使用人类专家推理的计算机模型来处理现实世界中需要专家作出解释的复杂问题,并得出与专家相同的结论。简言之,如图1所示,专家系统可视作“知识库(knowledge base)”和“推理机(inference machine)” 的结合。

信息检索技术

信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

常识知识库技术

常识知识库是当代智能系统或智能代理所具备的一种知识库。它是解决人工智能或知识工程技术瓶颈难题的一项关键措施,其特点是数量上规模大。早期人工智能或知识工程系统所具备的领域知识库是另一种知识库。也就是说,领域知识库和常识知识库是智能计算机系统所具备的知识库的两种基本类型。计算机科学领域普遍认为领域知识库和常识知识库是人工智能或知识工程技术瓶颈难题。从早期关注专家的领域知识到现在同时关注常识知识,这是人工智能或知识工程技术的一种进步。由于计算机硬件和软件以及数据库乃至数据仓库及其人机交互界面等技术的不断成熟,使得人们在21世纪开发各种专家系统所需要的各个中等规模的领域知识库和开发常识系统所需要的大规模的常识知识库都具备了基础条件。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

商业智能技术

商业智能(Business Intelligence,BI),又称商业智慧或商务智能,指用现代数据仓库技术、线上分析处理技术、数据挖掘和数据展现技术进行数据分析以实现商业价值。

ID3 决策树技术

在决策树学习中,ID3(Iterative Dichotomiser 3)是由Ross Quinlan发明的算法,用于从数据集生成决策树。 ID3是C4.5算法的前身,通常用于机器学习和自然语言处理领域。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

词性标注技术

词性标注是指为分词结果中的每个单词标注一个正确的词性的程序,也即确定每个词是名词、动词、形容词或其他词性的过程。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

推荐系统技术

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

反向传播算法技术

反向传播(英语:Backpropagation,缩写为BP)是“误差反向传播”的简称,是一种与最优化方法(如梯度下降法)结合使用的,用来训练人工神经网络的常见方法。该方法计算对网络中所有权重计算损失函数的梯度。这个梯度会反馈给最优化方法,用来更新权值以最小化损失函数。 在神经网络上执行梯度下降法的主要算法。该算法会先按前向传播方式计算(并缓存)每个节点的输出值,然后再按反向传播遍历图的方式计算损失函数值相对于每个参数的偏导数。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

MapReduce技术

MapReduce,一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是其主要思想,皆从函数式编程语言借用。它还借用了矢量编程语言的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

图像处理技术

图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

语义网技术

语义网是由万维网联盟的蒂姆·伯纳斯-李在1998年提出的一个概念,它的核心是:通过给万维网上的文档蒂姆加能够被计算机所理解的语义,从而使整个互联网成为一个通用的信息交换媒介。语义万维网通过使用标准、置标语言和相关的处理工具来扩展万维网的能力。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

控制论技术

控制论是一门跨学科研究, 它用于研究控制系统的结构,局限和发展。在21世纪,控制论的定义变得更加宽泛,主要用于指代“对任何使用科学技术的系统的控制”。由于这一定义过于宽泛,许多相关人士不再使用“控制论”一词。 控制论与对系统的研究有关,如自动化系统、物理系统、生物系统、认知系统、以及社会系统等等。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

暂无评论
暂无评论~