「处理中」这个词在他的电脑屏幕上定格了很久,像永无止境一样。终于,那程序吐出了一个人类可能会立刻给出的答案:「是」。
正紧握拳头庆祝着自己这小小的胜利的Socher先生,是硅谷创业洪流中的一家致力于推动各种新一代模式识别的软件创业公司。当这些软件与急速增长的大量数据想结合时,人工智能领域将大幅振兴。
他的公司MetaMind位于加州Palo Alto斯坦福大学校园边上的拥挤的办公楼里于2014年8月在商业软件公司Salesforce的首席执行官Marc Benioff,以及风险投资人 Vinod Khosla的800万美金的资本支持下成立。
MetaMind现在正专注于人工智能软件所面对的最令人生畏 的挑战之一。在识别数字图像中的物体,以及将人类发出的声音转化为自然语言方面,计算机已经有了长足的发展。但是在如何让计算机模拟人类思维并进行思考这个领域,我们还是面临很多阻碍。
现在,有了这些被称作「深度学习」或「深度神经网络」的机器智能软件方法,计算机已经可以像婴儿蹒跚学步一般,朝着按人类方式解决问题的目标前进。
上周日,MetaMind发表了一份论文。这篇论文中表示,其研究人员在软件对于问题应答的能力上有了进一步的突破,问题包括文字文档和数字图片的相关内容。
这份新研究之所以让人入迷,是因为它意味着我们在一步一个脚印地在建造可与人类「对话」的程序这个方向进步。MetaMind的结果也同样强调了现有机器能力与人类之间的差距。
其他公司此前在离散问题上也取得过进步,比如说IBM的 Watson和谷歌的「情景识别」,这些程序用人类事先描述过的图片进行训练。但能够接近人类理解和推理水平的通用系统还没有被开发出来。
而MetaMind的方法则可以让软件去检查一张新图片并用符合自然语言的句子描述它。
尽管机器视觉的问题仍然悬而未决,但像MetaMind这样的创业公司,或像Facebook、微软和谷歌等科技巨头,以及数十个研究团队都正在持续取得进步。
在他们近期的论文中,MetaMind的研究者提出了公司的新方法,也就是动态记忆网络,该方法能够同时处理输入的声音、图像和文本。
MetaMind软件的设计证明了神经网络软件正在变得越发复杂,他们的系统既可以记住语句的序列,又能聚焦于图片的各个部分。例如这样一个问题「这只猫尾部的毛是什么样式?(What is the pattern on the cat’s fur on its tail?)」,答案是「条纹状」,这说明该程序能够聚焦在猫的尾部来获取答案。
「接下来的一个在图片理解方面的问题是,你能否回答那些答案是对错的问题。」Socher说道。
MetaMind正在将他们的技术应用于商业领域,包括自动化的客户服务。此外,保险公司还向MetaMind咨询过,他们的技术是否能够附上照片(比如说那些遭到破坏的汽车和其他财产)回复邮件。
但是,对于哪些是最好的技术手段,甚至哪个是最好的衡量进步的方法,在研究界依然存在重大争论。
艾伦人工智能研究所负责人、计算机科学家Oren Etzioni说:「我们非常激动能够看到他们加入了『问答系统』研究的竞赛中来,但我们认为他们选取的数据集不够完美。」 与MetaMind不同的是,Oren Etzioni的实验室正在开发一种软件,用来回答标准的初中科学考试问题中的问题。
论文摘要
具有了记忆和注意力机制的神经网络结构展现了明确的推理能力,而这种能力正是问答系统所需要的。这种结构,也就是动态记忆网络(DMN)在执行多种语言任务时能获得更高的准确率。但是,它没有表现出 在训练中当支持事实没有被标记时,1)该结构是否能够得出有力的答案;2)该结构是否可以应用在图像等其他形态中。基于对动态记忆网络的分析,我们针对其记忆和输入模块做了几项改进。将这些变化汇总起来之后,我们为图片引入了新的输入模块,以此来回答视觉问题。我们新的DMN+模型在没有支持事实监督的情况下,在视觉问答系统数据集和\babi-10k文本问答数据集两方面都达到了目前的最高水平。