Joni作者Hao编辑

AAAI 2019 提前看:机器人和认知学习

本文介绍了三篇AAAI 2019 论文,前两篇分别研究了机器人如何学习环境中的物品拥有权以及对物品的操作能力,后一篇研究了是否能用当今的深度学习方法来模拟简单的人类认知活动。

分析师简介:Joni 目前是日本国立产业综合研究所的研究员。在中国大陆本科本行是自动化,后来对机器人研究有兴趣,在香港就读了电机工程的 Mphil 学位。博士时开始着迷生物学和脑科学的机器人研究,因此在德国汉堡大学参与了认知机器人的欧盟项目。此后一直欧洲,英国,日本和中国研究和讨论神经科学,生物学和机器人之间共通之处。

机器之心主页: https://www.jiqizhixin.com/users/24e7c39e-98c4-4dd9-8d36-26d6207e1b67

  • That's Mine! Learning Ownership Relations and Norms for Robots

  • Zhi-Xuan Tan, Jake Brawer, Brian Scassellati

  • Link: https://arxiv.org/abs/1812.02576

「That's mine! Learning ownership relations and norms for robots」这篇文章出自耶鲁大学的 Scassellati 教授和他的合作者。Scassellati 教授是 social robotics 的其中一位重要的研究者。这篇文章主要解决了一个问题:机器人怎样通过人机交互中,学习环境中的物品拥有权问题。这种物品拥有权问题,可以进一步扩展为机器人学习社会和人类的规范的问题。

文章主要介绍了解决这个问题的两个基本步骤:1)怎样把拥有权问题用数学语言建模;2)机器人怎样在交互中学习这些模型。

1 建模

因为用户对物品的拥有权不是简单的 1 对 1 对应的问题,而且一个用户对物品的所有权以为着一系列的责任和权利,另外一件物品可能被几个人同时拥有。为了完整地表达用户,所有权,规范这三者关系,就需要把物品、主人和(物品的)规范这些都包含在不同的知识表达中。因此文章把拥有权问题建模变成三个子问题:1)用谓语逻辑把拥有权和物品联系起来; 2)用数据库维护针对物品的动作权限(在文中只是针对有主人和无主人的物品);3)用概率图模型维护物品和各用户的所有关系。

1.1 物品拥有权和规范的联系

怎样把物品所有权和规范联系起来呢?比如说有一个规范说机器人不能丢掉有主人的物品,那么通过之前的物品所有权的学习,机器人眼中的物品所有权规可以通过 Prolog 范式进行描述,例如:

这个式子中,O 表示任意物品,A 表示一个个体。所以这个式子在系统中的规则描述就是:

这种关系是文章侧重介绍的重点,之后介绍的机器人利用概率推论进行学习过程也是主要针对这个部分。

1.2 关于物品的权限的规范处理

社会的规范可以包含很多方面,对于以机器人-物品互动为中心的权限,最主要的就是禁止(forbid)对某件物品进行动作。因此在文章中的权限,主要指 allow 和 forbid 两种权限处理,以谓语逻辑进行表示,就是

1.3 概率图模型表示所有权

文章用双向图表示物品的所有权,其中物品顶点(object node)和用户(agent node)之间的边(edge)表述该用户拥有该物品的概率。另外这个概率只是表示机器人猜测该物品被用户 n 拥有的猜测,是没有互斥性的。所以如果一个物品有 n 个潜在的拥有者,n 个概率相加可能会大于 1。这种一个物品被多个用户拥有的情况也是符合现实情况的。

2 拥有权学习

学习过程是通过人机交互更新上述三种知识表示的过程。比如说当一个用户指示机器人不要拿起一个看似没人用的茶杯时说:「不要拿,这是 Cassey 的茶杯」。这句简单的话需要同时更新三个知识表示:1. 拥有权:茶杯是属于 Cassey 的;2. 权限:机器人禁止(forbid)拿起茶杯;3.(一般的)社会规范:机器人不应该拿起茶杯,因为它是属于 Cassey(或者其他人的)。另外用户在人机交互中的命令有多种形式,可能只是一般性的拥有权指示,或者权限指示,或者两者俱有,因此当具有其他两种知识时,机器人系统也应该具有推断预测第三种知识表示的能力。所以如下图所示,本文是根据 forbid 的命令,可以推测学习物品拥有权,或者学习相反的规则:

2.1 规则学习

在学习知识的算法上,文中也提出了 3 个步骤,其中第 1 步是针对知识表示中的第 2 中,学习以物品为中心的权限处理,文中定义了禁止(forbid)是正样本(positive example),允许(allow)为负样本(Negative example),提出了 4 种规则学习算法。

其中算法 1 和 2 是基于 separate-and-conquer 算法,separate-and-conquer 算法也叫 covering 算法 [1.1],它反复专门化制定一般规则进行迭代。在每一个迭代选择专门的规则,让该规则涵盖正样本的子集并排除负面的例子。在我们的例子中,例子主要是通过人机命令样本(「不许拿桌上的茶杯」)来建立物品的拥有权的猜测。

而且因为这种规则学习是建立于与人环境交互中的,与一般的 separate-and-conquer 算法不一样,这是一种在线学习过程,当一个新的样本被接收时,规则的改变是通过 beam search 逐渐改变,规则的更新是基于一个返回值 score 来确定是否接纳/移除新的规则。另外 separate-and-conquer 规则跟流行的 divide-and-conquest 的主要区别是该算法考虑新规则时,会同时考虑正负两方,会尽量最大化正样本和最小化负样本。关于 separate-and-conquer 和 divide-and-conquest 的结合和比较,可以参考 [1.2]:

当用户直接提出一个规则(例如「不要拿脏的东西」),机器人可以利用算法 3 和 4 直接进行 one-shot learning。但要注意在算法 3 加入的正规则(forbid)要尽量不满足负样本(negative example),算法 4 中的负规则(allow)尽量不满足正样本(positive example)。

2.2 通过环境的所有权预测

机器人可以通过对环境的感知,预测物品的所有权。比如一个人在一个物品附近时,机器人会认为附近桌子上的物品是属于这个人的。因为机器人操作的动态和稀疏场景,所以文中采用了 KLR(Kernal Logistic Regression)分类物品的所有权(的概率)。KLR 采用了物品的颜色,位置和用户互动的时间来估计该概率。(但这个文中没有详细说,估计有另外的论文描述)。

2.3. 所有权推测

所有权推测跟预测不同,「推测」是机器人根据用户的命令(比如「禁止拿茶杯」)通过贝叶斯公式推测该物品被拥有的概率。

2.4. 三者组合

将上述 3 种学习结合起来需要处理两种矛盾问题:2.1 和 2.3,当引进的规则跟贝叶斯学习的规则相排斥,文中采用了更适合实际工程的启发性算法,参考了推测的规则的概率:如果 10% 或者以上的用户直接规则跟推测的规则相反,系统将尝试引入新的规则。相反,规则不会被更新,而只会被用到所有权推测。

另外,为了解决机器人的感知 2.2 和所有权推测 2.3 的矛盾可能性,文章直接采用了将 2.2 的结果作为 2.3 的输入(比如 P(ownby(O,A))。

3 实验

文章主要采用了模拟器实验结合实际机器人的视频演示。其中模拟器实验定量分析了三个实验:

3.1 规则学习

提供以物品为中心的指示,学习一般性规则。可以看出在有噪音的情况下,如果允许率为 0.25,F1 只在 0.5 上下。

3.2 所有权预测和推测

这个实验主要测试 2.2 和 2.3 的内容。结果现实无论在规则提供与否,结果相差不大,显示在学习过程中 2.2 和 2.3 结合的比较紧密(也可能是因为 2.2 的输出其实也是 2.3 的输入)

另外文章也进行了任务测试和视频演示 https://bit.ly/2z8obET,总体来说文中的解决的问题(让机器人在互动中学习规则)很有创新性,但提出的方法缺乏比较性,而且实验数据似乎还有提高空间(可能是算法问题,也可能是思路问题)。

分析师评论:这篇文章利用规则算法和其他(主要的)符号算法,试图让机器人在人机交互中理解物品的所有权和社会规则问题。因为整个系统是几个问题的结合,作为采用了几种不同的方法(包括规则学习,贝叶斯学习,视频分类等)。作者尝试用一篇短短 8 页的文章来介绍整个所有权分析推测的机器人系统似乎有点短,所以有些技术细节一笔带过了,读者似乎要读取其他的引用文章来获取更多的信息。另外实验中的样本也比较偏少,虽然作为一篇会议文章(虽然是 tier one 会议)是足够,但期待作者可以进行更多的实验和写更多的技术细节到下一篇文章(比如期刊文章)中。




  • Mirroring without Overimitation: Learning Functionally Equivalent Manipulation Actions

  • Hangxin Liu, Chi Zhang, Yixin Zhu, Chenfanfu Jiang, Song-Chun Zhu

  • Link: 

  • http://www.stat.ucla.edu/~sczhu/papers/Conf_2019/AAAI2019_Mirroring_Actions.pdf

第二篇文章是著名的 UCLA 朱松纯教授和他的合作者贡献的文章「Mirroring without Overimitation: Learning Functionally Equivalent Manipulation Actions」。但这个研究跟朱教授擅长的计算机视觉有联系但不是完全相关,而是利用示教(LfD(learning from demonstration)),令机器人模拟人的镜像神经元(Mirror Neuron)运作进而来控制机器人的对物品的操作能力。当然 LfD 和镜像神经元都不是最创新的概念,但该文跟之前的 LfD 不同之处是提出了机器人的示教学习应该「功能等同性」(functionally equivalent)。具体来说,机器人模拟人的动作,不需要完全学习每个细节动作(overimitation),而只需要学习完成对应的目标。因此在本文的上下文中,「目标」(goal) 被定义为目标对象的期望状态并该状态应该语法模型中编码。

本文的创新性在于 1) 采用了触觉手套来感应不同程度的力度,2) 通过 Q 强化学习和语义模型,以目标为主(goal-directed)学习对应的状态和力度;3)利用物理模拟器模拟不同的机器人动作和力度可以建立功能等同的动作。

1. 知识表示

文章把完成一个目标动作处理成层次性 Temporal And-Or Graph (T-AOG) 的数据结构。T-AOG 是朱老师一直推崇的层次级有向图模型,可以用下面的序列描述 

G=(S,V,R,P, σ),其中 S 表示一个具体的目标动作,比方说「打开水瓶」,而 V 是代表有向图中的「And Node」或者「Or Node」。图中的最末端表示的是各个基本动作,表示把环境(物体)从一个状态 S_t,通过力量 F,到另外一个状态S_{t+1} 的过程。因此学习过程变成学习各个节点之间的概率 P(α | β) = P(r) 的过程。

2 学习过程

2.1 强化学习施力和状态的关系

为了便于实现,文章使用对象上的力分布作为力的状态空间,并将 K 均值聚类应用于由不同机器人动作生成的力分布。然后对组中的力分布进行平均和归一化。对于状态表示,文章将瓶盖的距离和角度离散化并将它们标准化为 [0,1]。最后,以时间差异的方式应用着名的 Q 学习规则来学习力和状态关联。

2.2 学习目标导向的语法

由策略学习的人 - 对象交互(hoi)序列自然地形成来自隐式语法的解析句子的空间。因此,可以按照后验概率通过 ADIOS [2.1] 恢复语法结构。

2.3 镜像学习

为了让机器人学习动作镜像但又避免过度模仿,文章利用了基于物理的 Neo-Hookean 模型模拟器对学习出来的模型进行测试。镜像动作首先通过模拟下的力分布来操作,然后与学习得出的力分布进行比较。然后选择与学习的力的概率分布的最小距离的动作(如下图所示)。在本文中使用 KL 散度作为距离度量。

最后本文的各项功能集成起来如下图所示:

3 实验

文章采用了双臂 7-DoF Baxter 机器人。整个系统在 ROS 上运行。收集手部姿势时使用开放式触觉手套和力数据,该手套配备有 i)15 个 IMU 的网络以测量各个趾骨之间的旋转,以及 ii)使用 Velostat(一种压阻材料)的 6 个定制力传感器来记录 每个趾骨上的两个区域(近端和远端)的力和手掌上的 4×4 区域。手腕和手腕部分(即瓶子和盖子)之间的相对姿势是从 Vicon 获得的。数据收集过程如下图所示。

在学习过程之后,在机器人上执行学习模型如下图所示让机器人完成打开药瓶的动作。首先从学习策略引起的 T-AoG 中对解析树进行采样,以获得机器人应该模仿的一系列力类型,以便引起对象状态的相对变化。然后,Baxter 机器人的执行从初始位置开始并顺序执行相应的基元。在下图中,a6 会产生由机器人手腕中的力传感器(左上)捕获的力,比较数据表明提出的镜像方法确实比 baseline 方法能成功打开瓶子。

分析师评论:研究针对以目标为主的动作学习,利用不同模态(力度,摄像头等)的传感器采集足够的数据,似乎达到不错的学习效果。另外利用层次的图 T-AOG 也能更好表示机器人的状态变化,达到更好的控制效果。比较其他机器学习和机器人结合的研究组(比如 [2.2])如今主要采用深度学习+强化学习,似乎有更好的可解释性。




  • Cognitive Deficit of Deep Learning in Numerosity

  • Xiaolin Wu, Xi Zhang, Xiao Shu

  • Link: https://arxiv.org/abs/1802.05160

第三篇论文跟深度学习的可解释性和认知学习有关。标题是「Cognitive Deficit of Deep Learning in Numerosity」,是来自上海交大和加拿大麦克马斯特大学的合作研究。

文章研究了是否能用当今的深度学习方法来模拟简单的人类认知活动「Subitizing「。Subitizing 中文没有固定的翻译,一般叫「数觉」或「数感「。详情可以参看「知乎日报」:https://daily.zhihu.com/story/4066465。简单来说,人除了有逐一数数的能力以外,也有一眼认出 5-6 以下物体数量的能力。而如今的深度学习虽然有与人相比拟,甚至超过人类的物体/脸孔辨识能力,但是能否也有与人类类似的「数觉」能力?本文也想探究更深次的深度学习:黑盒子的深度学习是否可以达到人类的抽象和推理水平,这种超出了一般(像素)的统计学学习能力。

DCNN(深度卷积网络)可以用来计算特定环境中特定类型的物体,例如街道上的行人或显微镜下的细胞。但是这些这些方法不能像人类一样在不同背景的不同对象之间进行推广。Subitizing 需要在像素中抽象出面或单元格个数的自然数字。和一般 CNN 的分类问题不同的是,要实现 Subitizing 的主要问题是抽象物体的个数(也和符号化有关),但与物体具体的形状、颜色等几何信息相关性不大。

文章采用了如下的数据集进行训练。训练的图像都是合成和没有噪声干扰的。

在实验一,文章采用了最直接的方法,尝试在测试集改变图形的大小形状颜色等信息,由此测试 DCNN 模型是否具有大小形状颜色的泛化能力。文章在这里利用了下面的 DCNN 模型进行训练:

但结果不太令人满意,除了在第一个测试里,网络可以分辨出按比例扩大的图形,其他实验(包括改变形状,改变颜色,把训练图像改变成环状等),基本网络不能完成 Numerosity 的任务。(下面是部分实验结果,包括改变颜色,测试集图像是训练图像的环状版本)。由此看来,当图像在空间域里面的概率分布改变了,在 DCNN 里基本很难辨识出来。

在第二个实验中,作者尝试把上述的几何信息归一化, 只把所有的图像边缘用来训练和测试:

比起第一个实验,网络学习归一化(也就是经过边缘检测)的图像达到较好效果(如下图所示)。但识别率还没达到人的 Subitizing 标准。

在第三个实验里,文章继续对图形进行计算机视觉的形态学预处理。以下几个预定义的核卷积算子,以此来提取相关的拓扑信息,而不是直接用原始图像来进行 DCNN 处理。但作者经过尝试发现,这些核卷积算子只能预定义,而不能通过一般的反向传播学习来达到收敛

分析师评论:这篇文章建立了简单的连接模型 (connectionist),和改变训练和测试集性质等办法做了初步的深度学习和认知学关系的测试。作者认为, 如今流行的 DCNN 方法 (或者只凭借深度学习) 并不能实现 Subitizing 等简单的人类认知功能。而通过添加预定义的卷积算子,效果会提高。这是否意味着要某些提取物体基本的拓扑学信息,而这些计算要在人脑中内置(innate)呢?另外除了 Subitizing,和人的手势相关的数数(counting) 的连接学模型研究,可以参考 [3.1][3.2]。

参考文献:

[1.1] Fürnkranz, Johannes. "Separate-and-conquer rule learning." Artificial Intelligence Review 13.1 (1999): 3-54.

[1.2] Boström, Henrik, and Lars Asker. "Combining divide-and-conquer and separate-and-conquer for efficient and effective rule induction." International Conference on Inductive Logic Programming. Springer, Berlin, Heidelberg, 1999.

[2.1] http://kybele.psych.cornell.edu/ADIOS/

[2.2] Levine, Sergey, et al. "Learning hand-eye coordination for robotic grasping with deep learning and large-scale data collection." The International Journal of Robotics Research 37.4-5 (2018): 421-436.

[3.1] De La Cruz, Vivian Milagros, et al. "Making fingers and words count in a cognitive robot." Frontiers in behavioral neuroscience 8 (2014): 13.

[3.2] Rucinski, Marek, Angelo Cangelosi, and Tony Belpaeme. "Robotic model of the contribution of gesture to learning to count." Development and Learning and Epigenetic Robotics (ICDL), 2012 IEEE International Conference on. IEEE, 2012.


AAAI 提前看
AAAI 提前看

多年前导师在电梯里跟我说:“AAAI只有6页,也是顶会,让我们一起把这个idea投AAAI吧!6页的话,一个idea可以发两篇哦!” 多年后,随着AI/ML的火热,AAAI圈子如此兴盛繁荣,奇思妙想应接不暇,但是我还是没看到导师说的那篇论文。

理论认知科学强化学习机器人
3
相关数据
朱松纯人物

朱松纯是全球著名计算机视觉专家,统计与应用数学家、人工智能专家,现任美国加州大学洛杉矶分校 [UCLA] 统计系与计算机系教授,UCLA计算机视觉、认知、学习与自主机器人中心主任。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

概率分布技术

概率分布(probability distribution)或简称分布,是概率论的一个概念。广义地,它指称随机变量的概率性质--当我们说概率空间中的两个随机变量具有同样的分布(或同分布)时,我们是无法用概率来区别它们的。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

解析树技术

解析树是一个内部结构,由编译器或解释器在解析一些语言结构时创建,解析也被称为“语法分析”。

后验概率技术

在贝叶斯统计中,一个随机事件或者一个不确定事件的后验概率是在考虑和给出相关证据或数据后所得到的条件概率。同样,后验概率分布是一个未知量(视为随机变量)基于试验和调查后得到的概率分布。“后验”在本文中代表考虑了被测试事件的相关证据。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

机器人技术技术

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

拓扑学技术

莫比乌斯带,只有一个面与一个边,为拓扑学所研究之一类对象。 在数学里,拓扑学(英语:topology),或意译为位相几何学,是一门研究拓扑空间的学科,主要研究空间内,在连续变化(如拉伸或弯曲,但不包括撕开或黏合)下维持不变的性质。在拓扑学里,重要的拓扑性质包括连通性与紧致性。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

分类问题技术

分类问题是数据挖掘处理的一个重要组成部分,在机器学习领域,分类问题通常被认为属于监督式学习(supervised learning),也就是说,分类问题的目标是根据已知样本的某些特征,判断一个新的样本属于哪种已知的样本类。根据类别的数量还可以进一步将分类问题划分为二元分类(binary classification)和多元分类(multiclass classification)。

Prolog技术

Prolog是一种逻辑编程语言。它创建在逻辑学的理论基础之上, 最初被运用于自然语言等研究领域。现在它已广泛的应用在人工智能的研究中,它可以用来建造专家系统、自然语言理解、智能知识库等。

边缘检测技术

边缘检测是图像处理和计算机视觉中的基本问题,边缘检测的目的是标识数字图像中亮度变化明显的点。图像属性中的显著变化通常反映了属性的重要事件和变化。这些包括(i)深度上的不连续、(ii)表面方向不连续、(iii)物质属性变化和(iv)场景照明变化。 边缘检测是图像处理和计算机视觉中,尤其是特征检测中的一个研究领域。

神经元技术

(人工)神经元是一个类比于生物神经元的数学计算模型,是神经网络的基本组成单元。 对于生物神经网络,每个神经元与其他神经元相连,当它“兴奋”时会向相连的神经元发送化学物质,从而改变这些神经元的电位;神经元的“兴奋”由其电位决定,当它的电位超过一个“阈值”(threshold)便会被激活,亦即“兴奋”。 目前最常见的神经元模型是基于1943年 Warren McCulloch 和 Walter Pitts提出的“M-P 神经元模型”。 在这个模型中,神经元通过带权重的连接接处理来自n个其他神经元的输入信号,其总输入值将与神经元的阈值进行比较,最后通过“激活函数”(activation function)产生神经元的输出。

在线学习技术

在计算机科学中,在线学习是一种机器学习方法。和立即对整个训练数据集进行学习的批处理学习技术相反,在线学习的数据按顺序可用,并在每个步骤使用未来数据更新最佳预测器。

概率图模型技术

在概率论和统计学中,概率图模型(probabilistic graphical model,PGM) ,简称图模型(graphical model,GM),是指一种用图结构来描述多元随机 变量之间条件独立关系的概率模型

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

贝叶斯学习技术

基于贝叶斯概率定理的学习方法

聚类技术

将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。“物以类聚,人以群分”,在自然科学和社会科学中,存在着大量的分类问题。聚类分析又称群分析,它是研究(样品或指标)分类问题的一种统计分析方法。聚类分析起源于分类学,但是聚类不等于分类。聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。

知乎机构

知乎作为中文互联网知名知识内容平台,致力于构建一个人人都可接入的知识分享网络,让人们便捷地与世界分享知识、经验和见解,高效获得可信赖的解答。 目前,知乎已经覆盖「问答」社区、一站式知识服务平台「知乎大学」、短内容分享功能「想法」等一系列产品和服务,并建立了包括音频、视频在内的多元媒介形式。截止 2018 年 8 月底,知乎用户数已突破 2 亿,回答数超过 1.2 亿。未来,知乎进一步加大对 AI 技术和应用的投入,构建一个由 AI 驱动的智能社区,让知识普惠每一个人。

https://www.zhihu.com
暂无评论
暂无评论~