感知

perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

来源:维基百科
简介

感知是获取、解释、选择和组织感官信息的过程。

感知假定感觉 sensation,各种类型的传感器将某种类型的简单信号转换为系统的数据。把数据放在一起,感知机制perception mechanism使得这些数据变得有意义。

感知可以被看作是一种特殊类型的分类(或分类,模式识别),其中输入是感官数据,输出是分类判断和概念关系。

任务的困难来自于多个抽象层次,其中数据项之间的关系是多对多、不确定和随时间变化的。

准确地说,我们从来没有“看到事物的本质”,而智能系统的感知过程通常(也应该是)受到与信号本身相关的内部和外部因素的影响。此外,感知不是由输入驱动的纯被动过程。

在人工智能领域,对感知的研究主要集中在人类感知的再现上,尤其是对听觉和视觉信号的感知。

听觉

Speech recognition, 语音识别是一种能够感知和理解口语的系统的前端,用于语音指令界面和语音翻译。

语音识别(speech recognition;语音辨识言语辨别)技术,也被称为自动语音识别(英语:Automatic Speech Recognition, ASR)、电脑语音识别(英语:Computer Speech Recognition)或是语音转文本识别(英语:Speech To Text, STT,其目标是以电脑自动将人类的语音内容转换为相应的文字。与说话人识别及说话人确认不同,后者尝试识别或确认发出语音的说话人而非其中所包含的词汇内容。

语音识别技术的应用包括语音拨号、语音导航、室内设备控制、语音文档检索、简单的听写数据录入等。语音识别技术与其他自然语言处理技术如机器翻译及语音合成技术相结合,可以构建出更加复杂的应用,例如语音到语音的翻译。

语音识别技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。

视觉

视觉开始于从物体表面反射到眼睛的大量光的测量。然后,分析将分阶段进行,每一个阶段都会产生更多有用的信息表示。

计算视觉研究通常遵循三个主要阶段:

  • 早期表示可以捕获诸如图像中显著强度变化或边缘的位置、对比度和清晰度等信息。这种变化对应于物理特征,如物体边界、纹理轮廓和物体表面上的标记、阴影边界和高亮。在动态变化场景的情况下,早期表示也可以描述图像强度变化的运动方向和速度。
  • 中间表示从观看者的角度描述关于物体表面的三维(3D)形状的信息,例如小表面区域的方向或从眼睛到表面点的距离。这样的表示也可以描述表面特征在三个维度上的运动。
  • 物体的更高水平表示基于物体或在世界上的固定位置相对于坐标系,描述它们的三维形状、形状和方向。诸如物体识别、物体操纵和导航的任务可以从世界上物体的3D布局的中间或更高层表示操作。

对于相对简单的模式识别问题,神经网络通常被用来通过学习过程直接将输入映射到输出。近年来,层次化学习方法在各种问题上取得了显著的进展,如推荐系统,文本挖掘等。

视觉不是一个纯粹的输入过程。眼球运动对人的视觉感知有重要的影响。一个主动的视觉系统是一个能够通过改变它的视角而不是被动地观察它,并且通过对图像序列进行操作而不是在单个框架上操作来与环境交互的系统。此外,还有一些关于使用 eye-gaze 来进行操控界面。

高层次的感知

“更高层次的感知”,指的是给定的输入数据是该如何分类。在低级感知中,处理大部分是“自底向上”的,即,输出或多或少是输入的函数,在较高层次的感知中涉及到更多的因素。

“高层次感知”最重要的特性之一是它非常灵活。根据上下文和感知者的状态,给定的输入数据集可以以多种不同的方式被感知。由于这种灵活性,将感知视为一个与固定的相关联的过程是错误的。

【URL:https://cis.temple.edu/~wangp/3203-AI/Lecture/IO-2.htm】

发展历史

语音感知:

早在计算机发明之前,自动语音识别的设想就已经被提上了议事日程,早期的声码器可被视作语音识别及合成的雏形。而1920年代生产的"Radio Rex"玩具狗可能是最早的语音识别器,当这只狗的名字被呼唤的时候,它能够从底座上弹出来。最早的基于电子计算机的语音识别系统是由AT&T贝尔实验室开发的Audrey语音识别系统,它能够识别10个英文数字。其识别方法是跟踪语音中的共振峰。该系统得到了98%的正确率。到1950年代末,伦敦学院(Colledge of London)的Denes已经将语法概率加入语音识别中。

1960年代,人工神经网络被引入了语音识别。这一时代的两大突破是线性预测编码Linear Predictive Coding (LPC), 及动态时间规整Dynamic Time Warp技术。

进入80年代以后,研究的重点逐渐转向大词汇量、非特定人连续语音识别。在研究思路上也发生了重大变化,即由传统的基于标准模板匹配的技术思路开始转向基于统计模型 (HMM)的技术思路。此外,再次提出了将神经网络技术引入语音识别问题的技术思路。

进入90年代以后,在语音识别的系统框架方面并没有什么重大突破。但是,在语音识别技术的应用及产品化方面出现了很大的进展。

DARPA(Defense Advanced Research Projects Agency)是在70年代由美国国防部远景研究计划局资助的一项10年计划,其旨在支持语言理解系统的研究开发工作。

到了80年代,美国国防部远景研究计划局又资助了一项为期10年的DARPA战略计划,其中包括噪声下的语音识别和会话(口语)识别系统,识别任务设定为“(1000单词)连续语音数据库管理”。

到了90年代,这一DARPA计划仍在持续进行中。其研究重点已转向识别装置中的自然语言处理部分,识别任务设定为“航空旅行信息检索”。

日本也在1981年的第五代计算机计划中提出了有关语音识别输入-输出自然语言的宏伟目标,虽然没能实现预期目标,但是有关语音识别技术的研究有了大幅度的加强和进展。

1987年起,日本又拟出新的国家项目---高级人机口语接口和自动电话翻译系统。

语音识别的应用领域非常广泛,常见的应用系统有:语音输入系统,相对于键盘输入方法,它更符合人的日常习惯,也更自然、更高效;语音控制系统,即用语音来控制设备的运行,相对于手动控制来说更加快捷、方便,可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域;智能对话查询系统,根据客户的语音进行操作,为用户提供自然、友好的数据库检索服务,例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务等等。

【来源:WIKI, URL:https://en.wikipedia.org/wiki/Speech_recognition】

计算机视觉感知:

计算机视觉领域的突出特点是其多样性与不完善性。

这一领域的先驱可追溯到更早的时候,但是直到20世纪70年代后期,当计算机的性能提高到足以处理诸如图像这样的大规模数据时,计算机视觉才得到了正式的关注和发展。然而这些发展往往起源于其他不同领域的需要,因而何谓“计算机视觉问题”始终没有得到正式定义,很自然地,“计算机视觉问题”应当被如何解决也没有成型的公式。

尽管如此,人们已开始掌握部分解决具体计算机视觉任务的方法,可惜这些方法通常都仅适用于一群狭隘的目标(如:脸孔、指纹、文字等),因而无法被广泛地应用于不同场合。

对这些方法的应用通常作为某些解决复杂问题的大规模系统的一个组成部分(例如医学图像的处理,工业制造中的质量控制与测量)。在计算机视觉的大多数实际应用当中,计算机被预设为解决特定的任务,然而基于机器学习的方法正日渐普及,一旦机器学习的研究进一步发展,未来“泛用型”的电脑视觉应用或许可以成真。

人工智能所研究的一个主要问题是:如何让系统具备“计划”和“决策能力”?从而使之完成特定的技术动作(例如:移动一个机器人通过某种特定环境)。这一问题便与计算机视觉问题息息相关。在这里,计算机视觉系统作为一个感知器,为决策提供信息。另外一些研究方向包括模式识别和机器学习(这也隶属于人工智能领域,但与计算机视觉有着重要联系),也由此,计算机视觉时常被看作人工智能与计算机科学的一个分支。

【来源:WIKI, URL:https://zh.wikipedia.org/wiki/%E8%AE%A1%E7%AE%97%E6%9C%BA%E8%A7%86%E8%A7%89】

主要事件

年份事件相关论文/Reference
1958Rosenblatt, F.提出The perceptron,首个有关感知机的成果Rosenblatt, F. (1958). The perceptron: a probabilistic model for information storage and organization in the brain. Psychological review, 65(6), 386.
1961Rosenblatt, F对感知机进一步证明Rosenblatt, F. (1961). Principles of neurodynamics. perceptrons and the theory of brain mechanisms (No. VG-1196-G-8). CORNELL AERONAUTICAL LAB INC BUFFALO NY.
1988Lee, K. F.使用HMM进行语音识别Lee, K. F. (1988). Automatic speech recognition: the development of the SPHINX system (Vol. 62). Springer Science & Business Media.
1998Bradski, G. R.提出用于感知用户界面的计算机视觉人脸跟踪Bradski, G. R. (1998). Computer vision face tracking for use in a perceptual user interface.
2010Vedaldi, A., & Fulkerson, B提出VLFeat:一个开放和可移植的计算机视觉算法库Vedaldi, A., & Fulkerson, B. (2010, October). VLFeat: An open and portable library of computer vision algorithms. In Proceedings of the 18th ACM international conference on Multimedia (pp. 1469-1472). ACM.
2012利用神经网络进行语音识别Hinton, G., Deng, L., Yu, D., Dahl, G. E., Mohamed, A. R., Jaitly, N., ... & Kingsbury, B. (2012). Deep neural networks for acoustic modeling in speech recognition: The shared views of four research groups. IEEE Signal Processing Magazine, 29(6), 82-97.

发展分析

瓶颈

基于语音识别的瓶颈

  1. 语音识别大多都依赖数据库,并不是都来自于自然数据。
  2. 语音识别目前很难获取到语义信息和文化背景信息,这些都是目前存在的挑战。

和语音识别与图像识别不一样,语义理解处在一种发展的状态。我们看演示的时候时常能看到一个机器人或智能型产品与人进行流畅的交流。达到这种状态有两种可能:一种是作弊,后面放了个人,属于人工的人工智能;另一种是对话被限定在特定的场景下,比如在汽车里打电话,让地图导航等。语义理解的难度与所要处理的概念数有关,当要处理的概念数在几千个以下的时候,针对特定场景按照基于规则的方式还是可能搞定的,会做得比较流畅。但是一旦这个范围扩大到整个社会生活,那么最多就是Google Now和Siri那个样子。与这点密切相关的应用,一个是各种智能语音助手在对话时的智能程度,另一个则是翻译。

未来发展方向

除了传统的视觉,听觉的计算之外,未来研究人员还会进一步去实现更高层次的感知计算,如心情,性格等。这些更加抽象的数据需要更多研究人员的努力。

Contributor: Ruiying Cai

相关机构
  • Stanford Research Institute
  • Carnegie Mellon
  • BBN
  • IBM
相关人物
杰弗里·辛顿
杰弗里·辛顿
杰弗里·埃弗里斯特·辛顿 FRS(英语:Geoffrey Everest Hinton)(1947年12月6日-)是一位英国出生的加拿大计算机学家和心理学家,以其在类神经网络方面的贡献闻名。辛顿是反向传播算法和对比散度算法的发明人之一,也是深度学习的积极推动者。
西蒙·派珀特
西蒙·派珀特
西蒙·派珀特(Seymour Aubrey Papert;1928年2月29日-2016年7月31日),美国麻省理工学院终身教授,教育信息化奠基人,数学家、计算机科学家、心理学家、教育家,近代人工智能领域的先驱者之一。1928年出生于南非,1954-1958年在英国剑桥大学从事数学研究,1958-1963年在瑞士日内瓦大学师从著名教育家和儿童心理学家皮亚杰,并与其一起工作,正是这段经历促使其思考如何利用数学去理解和解释学习者的学习与思维。20世纪60年代初,西蒙进入麻省理工学院并创办了人工智能实验室(Artificial Intelligence Laboratory),他是著名的麻省理工学院媒体实验室(Media Laboratory, MIT)的创建者之一并一直在该实验室工作。主要作品有:《《儿童设计师》》、《头脑风暴:儿童、计算机及充满活力的创意》、《连接家庭:弥合数字代沟》等 西蒙的最著名的成就之一是于1968年发明的LOGO编程语言(LOGO programming language )。 1970年与其同事合著了人工智能著作《认知器演算法》(Perceptrons)。自20世纪70年代开始,他一直致力于通过LOGO语言帮助儿童成为他们自己“智力建设”的建设者。主要作品有:《《儿童设计师》》、《头脑风暴:儿童、计算机及充满活力的创意》、《连接家庭:弥合数字代沟》等
马文·明斯基
马文·明斯基
马文·李·明斯基,生于美国纽约州纽约市,美国科学家,专长于认知科学与人工智能领域,麻省理工学院人工智能实验室的创始人之一,著有几部人工智能和哲学方面的作品。1969年,因为在人工智能领域的贡献,获得图灵奖。
莱昂·伯托
莱昂·伯托
生于1965年,以在机器学习和数据压缩方面的工作而闻名。他的研究将随机梯度下降作为一种基本的学习算法。他还是DjVu图像压缩技术的主要创造者之一(其他两位是Yann LeCun和Patrick Haffner),也是DjVu的开源实现——DjVuLibre的维护者。他是编程语言Lush的最初开发者。
罗伯特·夏皮尔
罗伯特·夏皮尔
美国计算机科学家,美国国家工程院、美国国家科学院院士,曾任普林斯顿大学计算机科学系David M. Siegel '83教授,现就职于微软研究院纽约办公室。他主要研究理论和应用机器学习。 1995 年他与Yoav Freund发明了AdaBoost算法,并因此获得 2003 年哥德尔奖。
约阿夫·弗罗因德
约阿夫·弗罗因德
加州大学圣地亚哥分校的计算机科学教授,主要研究机器学习、计算学习理论、概率论、信息论、统计和模式识别,以及机器学习算法在大数据、计算机视觉、人机交互和在线教育中的应用。他最出名的是工作是开发了AdaBoost算法,并因此荣获 2003 年哥德尔奖。著作:Boosting: Foundations and Algorithm。
弗兰克·罗森布拉特
弗兰克·罗森布拉特
Navdeep Jaitly
Navdeep Jaitly
Abdel-rahman Mohamed
Abdel-rahman Mohamed
俞栋
俞栋
俞栋,语音识别与深度学习领域的专家,现任腾讯AI Lab(人工智能实验室)副主任。俞栋曾在语音识别领域出版了两本专著并发表过大量论文,也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。
邓力
邓力
邓力,本科毕业于中国科学技术大学,随后在威斯康星大学麦迪逊分校获的硕士和博士学位。曾任微软人工智能首席科学家。邓力2009 年就同 Geoffrey Hinton 教授合作,首次提出并将深度神经网络应用到大规模语言识别中,显著提高了机器对语音的识别率,极大推动了人机交互领域的发展与进步。2017年5月,他加入了市值300亿美元的对冲基金Citadel并担任首席人工智能官。
简介
相关机构
相关人物