通往AI之路:Yann LeCun的西西弗斯情结

Facebook的AI研究专家Yann LeCun在湾区机器学习研讨会上做了名为《AI之路中的障碍》的演讲。他认为AI的障碍就是样本太多,扫清障碍的方法就是非监督学习。
很少有人比燕乐存(Yann LeCun)与深度学习的关系更紧密。他是一位有名的计算机科学家,主要研究领域是机器学习、计算机视觉、机器人和计算神经科学,还以他对光学字符辨识和卷积神经网络(CNN)的研究而闻名,被誉为卷积网络之父。 [caption id="attachment_6314" align="aligncenter" width="1000"]Yann LeCun Yann LeCun[/caption] 上个世纪80年代末,他加入贝尔实验室,开发出卷积网络技术,并展示了它在笔迹识别系统中的极大用处;美国大部分支票的签名都用他的方法进行处理。90年代中期开始,当神经网络遭遇寒冬时,燕乐存是少数抱有信心的科学家之一。2003年,他成为了纽约大学数据科学中心的教授,为深度学习做出了巨大的贡献。2013年,他加入Facebook新成立的人工智能实验室,领导Facebook的AI研究,主攻自然语言处理(NLP)、机器视觉 和模式识别等方向。机器之心曾经编译过IEEE对他的专访,点击此处可查看《深度对话Yann LeCun:让深度学习摆脱束缚》。 今年10月,燕乐存参加了在美国加州举行的湾区机器学习研讨会(Bay Area Machine Learning Symposium),并在会上做了题为《AI之路中的障碍》(Obstacles on the path to AI)的演讲。 customLogo 湾区机器学习研讨会是为旧金山湾区机器学习科学家举行的会议,目的是建立学术研究和产业机构的桥梁,其组委会包括了谷歌研究院的Samy Bengio、百度的吴恩达、Facebook的Joaquin Quinonero Candela等。 燕乐存的演讲视频如下(全文PPT点右边下载:lecun-20151022-baylearn):   燕乐存为自己的演讲起了一个副标题叫「我是怎样学着不再担心并爱上非监督式学习的」(How I learned to stop worrying and love unsupervised learning),并在演讲中表达了自己对非监督学习的乐观态度,认为这才是强人工智能实现的利器。 1 以下是演讲内容的概括: 1,介绍了如何让表征学习与推理/决策等功能互相配合。表征学习(Representation learning)的目标是寻求更好的表示方法,并建立更好的模型来从大规模未标记数据中学习这些表示方法。 2,强化学习的缺点在于大量的表征学习参数存在,使得机器学习的计算量相当冗余。强化学习(reinforcement learning)是机器学习中的一个领域,强调如何基于环境而行动,以取得最大化的预期利益。其灵感来源于心理学中的行为主义理论,即有机体如何在环境给予的奖励或惩罚的刺激下,逐步形成对刺激的预期,产生能获得最大利益的习惯性行为。燕乐存把强化学习比喻做「蛋糕上的小樱桃」,听起来很诱人,但是在有限的时间内无法学习到成千上亿的参数。 3 3,非监督学习在自然语言处理领域的应用(比如语词嵌套、组合语义属性、问答系统)。非监督学习是机器学习的一种类型。机器学习有两种主要的学习类型。一种是监督式学习,处理有标记的数据。例如,包含不同图像的数据组,每个数据都有注释和描述。另一种则是非监督式学习,处理没有标记的数据,计算机必须找到区分不同数据子集、集群或相似图像的方法。 [caption id="attachment_6318" align="aligncenter" width="1082"]我们是如何无监督学习的? 我们是如何无监督学习的?[/caption] 4,记忆网络:如何造出一个类似人类「海马区」功能的记忆模块。海马区(Hippocampus)是位于脑颞叶内的一个部位,人有两个海马,分别位于左右脑半球。它是组成大脑边缘系统的一部分,担当着关于记忆以及空间定位的作用。燕乐存指出,递归网络的记忆时间很短,就像大脑皮层只有20秒的记忆,因此我们需要一个像「海马区」一样的记忆模块,并介绍了目前的一些研究进展,如Jason Weston等人的记忆网络(Memory Networks)等。 8 9 燕乐存认为,非监督学习的优点有很多。非监督学习非常适合对真实的世界进行建模,因为这个世界充满着各种不确定性,并不存在理想条件下的无噪声和决定论式的那般机械。总而言之,这是一个活生生的世界。因此如果提取各种样本进行机器学习,无疑是不可取的。那么,我们需要从不同的方面进行思考。燕乐存的演讲暗示着他将提出一种建立在「非样本」基础上的非监督学习。希腊神话中,西西弗斯每天都必须将一块巨石推上山顶,而巨石到达山顶后又会滚回山下,周而复始,徒劳无功。推崇无样本非监督学习的燕乐存是否就像那个推着巨石前进的西西弗斯呢?或许只有等巨石被推上山顶时才能揭晓答案了。 那么,他是如何对所谓的非样本机器学习进行论述的呢?他将如何踢开阻挡在人工之路上的这块绊脚石(大量的样本处理)呢?请戳lecun-20151022-baylearn,下载全文PPT,给你更多细节。  
入门