第 25 届国际人工智能联合会(IJCAI-16)于 7 月 9 日在美国纽约召开。IJCAI 大会始于1969 年,是全球人工智能界顶级学术会议。所以想了解人工智能的尖端已经走到什么程度,follow 这个会议就对了。之前 IJCAI 每两年举办 1 次,从去年起改为 1 年 1 次,但不妨碍国内外顶尖科技公司挤破脑门参与。像今年「中国代表队」中百度、腾讯、阿里都赫然在列。谷歌将人工智能视为重点项目自然不会缺席,微软、今日头条、SONY 等都积极参与。
本届会议主题为人类意识的人工智能,在细分领域上集中在 ML(机器学习)、Agent (代理)、KR(知识表示, 推理和逻辑)、Planning(规划)、Multi(多任务,多视角等)、NLP(自然语言处理)等。
谷歌AlphaGo——机器学习ML
Google DeepMind 演讲PPT
《如何用神经网络和树搜索掌握围棋游戏》
简而言之:阿尔法狗有 2 个大脑,还和自己下棋。
在该论文演讲中,谷歌 DeepMind 研究员 David Sliver 对 AlphaGo 的实现原理和后者同人类棋手对弈过程进行了分析。
AlphaGo 采用的是混合型机器学习技术,即深度学习网络(CNN)跟蒙特卡罗搜索树(MCTS)相结合。除了记录大量的棋谱,阿尔法狗之所以在一对一对战中表现强劲,主要因为它有 2 种不同的神经网络,类似于拥有 2 个大脑——Value Networks (价值网络)评估棋盘位置,Policy Networks (策略网络)选择下棋步法。这些神经网络模型通过一种新的方法进行训练,结合人类专家比赛中学到的监督学习,以及在自己和自己下棋中学到强化学习。
利用这两个改进的神经网络来分别判断局势,两个局势得分相加为此处最后走棋获胜的得分。这里使用快速走棋策略是一个用速度来换取量的方法,从被判断的位置出发,快速行棋至最后,每一次行棋结束后都会有个输赢结果,然后综合统计这个节点对应的胜率。与之相反的是策略网络,其通常是速度较慢但判断精准。而价值网络只要根据当前的状态便可直接评估出最后的结果,两者各有优缺点并进行互补。
在 David Silver 看来,AlphaGo 已经展现出超越专业 9 段棋手的水准,按 Goratings 分数来排名的话应该接近 4500 分左右。这个分数不仅超过中国棋手柯洁九段的最高分数,也比其自身目前分数要高。不过我们还是要看以后阿尔法狗的对战表现如何来定,不要高兴的太早哦思密达。
微软——深度学习、自然语言处理
Microsoft Research 演讲PPT
《深度学习在语义理解上不再难有用武之地》
简而言之: 利用深度学习强化语音文本的处理和理解。
标准机器学习的过程同深度学习最大的区别,正在于特征训练的方式,传统的特征训练需要开发者手动提取特征,显得比较累。而深度学习可以自动从训练数据中学习到特征。显得灵活很多,不过代价就是函数优化和参数选择等的工作量会更重。
一个需求分类问题的举例,比如输入一个问题:丹佛市中心的寿司店,但这个店属于餐馆,酒店,夜店,航班那个领域的店或者馆呢?这个是需要搜索引擎更加细化分类的。微软演示了一个单神经元模型的原理,当输入一个X值后,函数最终会将其通过 logistic 回归进行分类,决定是否要给Y加上标签,并与事先准备好的标签核对。以此来完成学习的过程。
微软发现,适当增加隐藏层会让算法的效果更好。对特征的学习和转换也更灵活。类似深度学习用于图像识别时的像素、边缘、 纹理、 主题、 局部、 物体整体的过程。深度学习用于文本分析的时候也遵循了一个从字母、单词、 词组、 从句、 句子、 整个故事的过程。训练层数越多,对这些特征的描述就越精确。最终提取出来的效果也会越好。
举一个具体的例子:深度语义相似模型(DSSM)。这种模型的处理方式是使用X和Y组成的文本流来计算语义相似度。方式是使用深度神经网络先在潜在语义空间建立一个x和y的两个特征向量。然后计算特征向量之间的余弦相似程度。
深度学习曾被认为不适合用来做语义理解。主要是因为词语之间的相似程度与其含义的相似程度并无太大关系。词表的出现一定程度上解决了这个问题。而现在,深度学习在语义理解上的障碍已经基本不存在了,微软此次提供的思路也是一个很好的参考。相信应用上了深度学习的语义理解程序的表现将会有极大的提升。
IBM——知识呈现(KR)/逻辑编程(Logic)
《智慧城市中的AI应用》
简而言之:利用人工智能技术实现城市智能化
IBM 一直致力于智慧城市的人工智能技术开发与应用。智慧城市利用信息和通信技术(ICT)日益进步,以更好地管理城市的资源、改善人们的生活质量。信息和通信技术跨越城市的多个部门,如交通部,水利部,能源管理部和社会保健服务部。此外,人工智能技术在系统化城市信息方面具有越来越大的价值,它可以保证网络服务持续运行,预测事故发生,优化分布,诊断故障,规划路线和有效地组织城市的基础设施等,特别在处理城市交通管理(大城市的关键问题之一)上表现出色。
IBM将专注于利用最新的人工智能技术几个方面:知识呈现(KR)、逻辑编程(Logic)、机器学习(ML)、规划(Planning)、推理和优化等。举例来说,IBM将通过交通相关的可扩展新版本应用程序来实现:
各种数据源的数据收集;
利用交通数据,车辆数据,市民及事件等知识推理技术来诊断和预测道路交通拥堵情况。
根据这些原则,IBM 开发了公开可用的人工智能系统「STAR-CITY」。目前 IBM 正在讨论 STAR-CITY 的部署和应用,或将在都柏林,博洛尼亚,迈阿密,里约热内卢等城市试运行以帮助相关人工智能技术的进一步完善。
腾讯优图——深度学习领域与信息检索领域
1.《基于全局误差重构的深度卷积神经网络压缩方法》 ——深度学习领域
简而言之:将体积庞大、技术门槛高的云端深度学习服务进行压缩,使其体积小、运转速度快、兼容性高,在手机上就可以完成复杂运算。
云端服务的方式越来越依赖用户上传的大量数据,比如本地照片分类管理。因此服务质量受限于网络环境、后台服务能力、用户隐私等因素。优图深度学习团队给出的解决方案是——将庞大运算模型压缩至可以放在手机上的体积。
因此,优图团队与厦大合作探索出了网络模型压缩的创新算法方案——GlobalError Reconstruction (GER)算法,减少此类误差累计,提高压缩网络准确率。究竟有多厉害呢?实验结果表示 GER 算法能压缩业界知名的网络 AlexNet 和 VGG 模型(NIPS2012,ICLR2015)接近 15 倍而不失准确率。当前已应用于移动端图片分类模型,优化压缩比高达 10:1 以上。也就是说从前几百兆的运算模型可以压缩为十几兆乃至几兆,未来有望应用在人脸识别、声纹辨别等领域。
2.《面向跨模态哈希的监督矩阵分解方法》—— 信息检索领域
简而言之:提高音乐检索准确率和效率
随着信息技术的发展,互联网的信息形式逐渐以文本、图片、视频、声音等多种数据形式复合出现转变。优图研发了基于异构数据的检索方法——一种监督矩阵分解哈希算法,能够充分利用文字、声音等信息增强检索的效果。在维基百科等搜索验证性实验中,该新技术以更快的训练速度获得更令人满意的检索效能。
那么这个技术怎么用呢?你可能已经从 QQ 音乐的「哼唱搜索」体验到一些了——它可用于改善传统音乐检索系统。传统音乐检索系统大致分为两类,一类是以基于知识图谱的文本检索的形式,就是我们常用的歌曲名、歌手作为关键词的文本搜索等,另一类是基于音乐内容的音乐检索形式,比如 QQ 音乐的哼唱搜索。优图提出新算法可以将传统的两种检索方式融合以提高用户音乐检索的准确率,并实现基于用户的个性化音乐推荐等应用功能。
头条实验室——机器学习ML
《Swift》
简而言之:加速机器学会逻辑处理——将运算速度提升 60-100 倍
今日头条实验室主要研究领域为机器学习、自然语言理解、计算机视觉、人机交互与机器人等方向,聚集了国内外名校(卡耐基梅隆、加州伯克利、中科院等)毕业的科学家以及在拥有多年一线机器学习应用开发经验的工程师团队。本次被 IJCAI-2016 收录的论文来自头条实验室实习生吴翼及项目发起人李磊,导师是分别是人工智能尖端专家加州伯克利大学前计算机学院院长Stuart Russell 和华盛顿大学教授 Rastislav Bodik。
目前大热的深度学习,其实并不能解决逻辑推理的问题。深度学习目前还只能用来做比较简单的数据预测。那么,如何能够让机器学会逻辑推理?概率程序语言可以实现这一目的,它提供了人工智能一项基础任务的解决方法——知识如何表示。它可以对不确定性事件建模,然后预判出不确定性事件未来的走向。概率程序语言通过通用推理引擎可以对任意概率模型自动作推理,让更多并不精通机器学习的人也可以非常方便的使用人工智能技术。不过,传统的概率程序语言运算速度非常慢。
Swift 编译系统推理速度与其他系统在几个评测模型上的对比
本论文对比了美国各大实验室目前采用的概率推理引擎,在时间与有效性的对比中,Swift 完胜微软、MIT、哥伦比亚大学等其他各家开发的系统。Swift 之名,意指实现逻辑推理真正的敏捷、快速,这名字起得实至名归。
传统的概率程序语言需要 150 秒才能实现对 6000 个手写文字的训练和识别。使用 Swift之后,只需要 5 秒,计算机就能全部训练识别完这 6000 个文字。效率提高了 30 倍。
为了证明 Swift 的有效性,吴翼做了非常多的对比实验。其中重要的一项是对台风登录的预测。没有使用 Swift 之前,关于台风走势的 100 万次采样,需要 30 秒时间;使用Swift 之后,只需要 0.4 秒就能实现全部采样,从而推测出台风登陆的可能性,效率提高 75 倍。吴翼和李磊设计的编译系统 Swift,是到目前为止,在解决概率编程的运行速度问题上,效果最好的编译器。
该技术将应用于今日头条对海量数据的编译处理,有效提升处理效率进而提升机器分析和学习逻辑进程。未来将基于这个技术使用户获得更好的个性化信息推荐体验。
总结
2011 年,沃森机器人挑战危险游戏;今年,阿尔法狗挑战围棋。它们的意义已经远远超出学术界,对大众的教育和认知意义深远。人工智能正在成为改变我们生产生活方式、提高效率的最大动力。
对任何一家技术公司而言,一旦科研成果成功转化成产品 ,效率的提高,一定是呈几何指数增长的。学术界的研究追求认识理解世界的本质,而工业界的研究追求经济有效技术的实用化。越来越多的中国公司在尖端科技上提出更多创新技术,而这些技术将帮助中国的互联网科技发展快速在全球异军突起。