波士顿RE•WORK深度学习大会 :技术趋势与精彩应用


之前,我们参加了在波士顿举办的第二届年度 RE•WORK 深度学习大会。在这篇文章中,我将分享我个人认为的本次大会上值得关注的内容。我的观察以深度学习技术的趋势为背景。又因为我们是少数几个今年和去年都参加了这项大会的技术团队,我在这里将简单分享一些主题、受众和应用方面的比较。


一、焦点:创业公司和大型企业

随着特定使用案例的数据和价值被发现,机器学习创业公司也越来越关注垂直行业。我与一位时尚类创业公司创始人进行了交谈,该公司的技术可以通过人们穿戴品牌服装和饰品的照片,链接到相应品牌的产品页面。他对寻找「图像中的图像」非常感兴趣。还有一个对冲基金正在招募「最聪明的人才」,来将机器学习方法应用到从卫星图像中分析市场信号。我们的邻居,哈佛大学的连接组计划(Connectome Project)正使用神经网络和大量电子显微图像,来使神经元的分割问题自动化,以测绘出大脑中的神经连接。如你所料,创业公司正在探索各种各样的技术解决方案,从卷积神经网络到递归序列模型、混合结构、GPU 硬件、特定领域数据、和工程实现上的问题等等。


大型企业也占据了一席之地,而许多都聚焦在自动驾驶汽车和物联网/互连传感器领域。许多对话都关注在如何在已有产品上新增功能、如何建立处理大量数据的基础设施、以及如何应用新技术和新功能的价值。无论原因为何,中小型企业在这方面明显缺乏。


二、挑战性问题上的进展

1.鸡尾酒会问题


「鸡尾酒会问题(cocktail party problem)」是一个信号处理问题,当多个语音信号混合在单一信道中时,如何从混合中分理处各个组分(即:说话者)是一个难题。来自三菱电机研究实验室的 John Hershey 全面讨论了他们使用嵌入向量(embedding vectors)来解决这个问题,并且演示了非常不错的样本!语音只是许多种类的有噪声序列中的一种,使用类似的方法探索其它信号分离问题一定很有趣。


2.面部情绪


Daniel McDuff 进行了一个演示:使用一个瞄准说话者面部的网络摄像头,将说话者的面部表情从视频中删除。众所周知,一段时间以来,卷积神经网络非常适合用来通过标签观察数据来分析面部,但是,测试学术基准与部署工业级的解决方案之间存在很大不同。这是 Affectiva 的产品。

3.Yoshua Bengio:开场演讲


很显然,听一个重新点燃了人们对神经网络的兴趣的人说话,是一件很让人享受的事。在我看来,他的演讲和预期的一样,阐述了神经网络目前的发展状况。结束时的问答尤其好;感谢 Bengio 教授为观众提问留下那么多时间。其中我最喜欢的是他在互联网的这个讨论,在其中他列举了支撑大部分深度学习的问题和理论。


三、最好的技术展示

1.Honglak Lee:解开表征(disentangled representations )


Lee 教授给出了大量很棒的计算机视觉方面的东西。特别是 Lee 等人在弱监督解开表征上的成果尤其有趣,我期待在这方面看到更多进步,尤其是在生成模型的背景中(希望会实现)!

2.Andrew McCallum:结构化知识图谱 + 神经网络


在深度学习出现之前,McCallum 教授是条件随机域的开发的重要推动者。他谈到了一种使用结构化知识基础的通用模式,这是一个帮助模型利用关于世界的「已知知识」做出更好预测的机智方法。他也谈到了将图形结构作为一个序列进行遍历,并将其送入 LSTM/递归神经网络等序列模型中——考虑到锁在知识图谱中的知识是如此之多,这种已知的策略可能并未得到足够的关注。

3.Andrew Tulloch:Facebook 的深度学习部署


在一个非常技术的演讲中,Andrew 提醒大家注意使用神经网络部署稳定的解决方案时,产生的一些关键的技术问题,从数据分布中的偏差,到最小化卷积神经网络的内存成本。因为 Facebook 的模型部署规模大于其它大部分组织,所以这可能得以让我们一窥未来几年中,机器学习工程师们将要面临的痛苦。有趣的事实:Facebook 每天翻译 4.14 亿份文档、评分十亿篇新闻文章、排名数万亿个广告。


更一般地说,在科学和工程领域,人们认为一个解决方案有趣的原因可能是多种多样的,从「管用的常识」到「优雅的想法」。就我个人而言,我觉得创新的重要性被高估了,好的工程工作往往被学术算法和依赖背景的基准遮掩了光芒。听到 Andrew 强调一些提高部署模型的实用且可靠的路径,真是让人眼前一亮。


比如,ImageNet 是一个广为人知的用于监督式图像分类的数据集,但 ImageNet 中的吉他分布(图1)和社交媒体上的吉他分布(图2)有很大的不同。


图 1:从 ImageNet 的「吉他」同义词集的第一页结果中随机选择的图像。这些图像一般都关注单个物体,而且有一个清晰的背景。如果我们问一组人「这张图片中发生着什么?」我们预计每个人都会给出一个相似的回答,比如「这是一把吉他」或「一个人/婴儿在玩一把吉他」。

图 2:从社交媒体上随机选取的标记有「吉他」的图像(即用户上传的图片)。和 ImageNet 相比,这些图像包含更复杂的背景和更多物体实例和人。如果我们问一组人「这张图片中发生着什么?」我们预计可能会得到更为多样化的答案:「这是一个专辑封面」、「一个在吉他店里试吉他的男人」、「一支摇滚乐队」、「摆着一把吉他的客厅一角」。



数据分布的差异,可能会给基于 ImageNet 训练模型并借此预测真实数据的人带来问题(如:检测用户提交的图像中的吉他)。一个简单的方法是:将组合的数据集融合,并在此之上进行训练。但同时你将付出为一大堆用户图像标记分类的成本。为了在相同的基础上比较算法,基准是很重要的,但当涉及到为真实世界开发解决方案时,一定要确保你的技术是构建于你的数据分布之上的。

4.肖健雄:使用真正 3D 模型的机器人视觉


当我们考虑 2D 视觉分类的基准时,如果模型的准确度达到或超过了人类,我们很容易就会认为问题已经得到了解决。但事实上我们活在 3D 的世界里,理解 3D 世界中事物的交互,是任何自动代理都必须做到的事。肖教授非常清晰地阐释了 3D 机器人视觉和规划为什么仍然是重大的挑战;而且尽管有关于人工智能的炒作,但要让一个机器人勉强转动门把手,我们仍然(可笑地)缺乏最先进的技术。


肖教授的团队正在使用全 3D 的卷积神经网络,其可以考虑输入数据的多种分辨率以学习关于 3D 环境的信息。使用世界的立体 3D 表征也许是一个显然的想法,但为表征增添一个额外的维度,会导致模型参数数量的巨大增长,这将使训练和归纳变得困难。因此,像在整个 3D 空间位置中进行权重共享和多尺度区域建议(multi-scale region proposals,见图3)等策略就甚至变得更为重要了。肖教授的实验室似乎也得到了很好的成果,自去年以来已取得了很大的改进。


图 3:根据多个长度尺寸预测 3D 对象。


四、令人折服的应用

1.GumGum

这些人售卖「基于图片使用图片」的广告宣传。品牌们往往想要控制它们的广告出现的方式的时间,不仅是为了最大化广告效益(看到图片的用户更有可能对广告内容感兴趣),而且也为了维护品牌的名声(如,迪士尼可能不希望网页上出现内衣广告,而 Calvin Kelin 可能就会在上面投放广告)。但是,为了让品牌能够对广告图片有所控制,你需要一个能够理解图片的背景内容和内在含义的模型,来对用户群体做出定位。GumGum 使用卷积神经网络来做这件事。


例如,一个客户希望向特定群体的女性投放他们的广告,并且他们希望通过含有「红唇」的图片来定位用户,就像下面这张吐着 MAC 俄罗斯红唇彩的安吉丽娜 · 朱莉的图片:

涂着红唇的安吉丽娜 · 朱莉

对广告上来说,「红唇」的概念是很明晰的,对你来说应该也是这样的吧!对于人类来说,我们很自然地会将注意力集中到图片中「嘴唇」的部分,并分析上面的颜色。但是 GumGum 的系统持续地返回某一特定名人的图片:

Harry Styles 也有「红唇」

客观地说,模型检测出 Harry Styles 的图片中有红唇错了吗?我们来比较一下 GIF 动图吧!在我看来,如果我们只关注图片红的对纯,那么很难「看到」除了颜色外的其他区被(Harry 看起来并不像涂了口红)。如果只看图片的数据,相似之处实在太多了!

主观地说,GumGum 的客户肯定不会想将它们的广告预算投入到 Harry Styles 的这种图片上;他们想要定位的是有鲜艳双唇的女性。因此,这一模型还应该能够解释数据分布背后的假设。在这个例子中,客户想要去除预料之外的结果,但是我们可以想象,可能预料之外的结果也可以是十分有价值的。这确实是对卷积网络的绝好应用!

2.Conservation Metrics:使用分布式传感器 + 机器学习进行环境调查

我最喜欢的一项应用是 Conservation Metrics 的项目。通过使用分布式传感器(如远场麦克风)和深度学习,他们收集野生动物和环境的数据,来帮助支持环境保护工作。从 1970 年到现在,我们已经失去了这个星球上半数的野生动物,而这一问题是由多个原因导致的。所以,衡量单一因素对物种数量或人工干预效果的影响一直是一个难题。

例如,一种叫做 Bryan's Shearwater 的稀有海鸥,之前一直被以为只在太平洋上的中途岛(Midway Islands)栖息。生物学家们在哪里发现了三只鸟,但是他们找不到任何鸟巢或哺育长多。鸟类的流动性非常强,所以如果找不到他们的哺育场所的话,要对他们进行保护就很难了。Conservation Metrics 在岛上布置了声学检测仪,并使用软件过滤,并在这些地点周围设立了一个保护区域。在新兴技术应用于新领域的步伐十分缓慢的今天,看见一个如此复杂的端到端系统能够在专家的参与下被有效地使用,真是一件特别振奋人心的事情。

五、其它酷炫的东西

1.Joseph Durham:亚马逊最优化的机器人操作

世上最庞大的机器人大军,恐怕要数完成亚马逊订单操作的这一支了:在遍布全球的亚马逊仓库里,上千(人类)工人 + 上千机器人,共同搬运装有上百万产品的上千个吊箱。对于机器人来说,将随机分配的货物有效率地装箱,仍旧是一个挑战,所以这一任务仍旧由人类来完成。所以,有趣的是,这意味着机器人的任务其实是为人类工人拿取货物……这与软件以队列形式处理多线程任务不无相似之处。这一在慢速任务中组织自动化的概念,仍旧是经典工程的一种,我也乐于看到这样的组织形式能够让我的订单三天到货。

2.Spyros Matsoukas:亚马逊 Echo/Alexa 的语音探测

语音识别是一个能够用硬件或/和软件解决的经典问题。亚马逊的 Echo 使用的就是硬件解决方案:一连串的远场麦克风使得下游处理更加简单。但是每一个 Echo 用户使用的装有九个麦克风的设备,加起来会产生数量惊人的数据!人们往往会忽略的事情之一是:「大数据」也可能意味着大多数据是无用的或者/以及冗余的。亚马逊了解这一问题的存在,并改进他们的语音处理系统,来处理冗余信息、远场音效、压缩和效率模型。


3.Parsa Ghaffari:将Aylien 的 API 用于实体识别


另一家使用机器学习提供 API 的创业公司 Aylien,也在他们的演讲中介绍了他们在解决实体识别等问题的想法。他们使用一系列技术,包括递归神经网络/长短时记忆。尽管他们的 API 交互界面与 indico 稍有不同,但市场从此多了一种选择,这是一件好事。


六、趋势:从去年到今年

1.人才争夺继续升温


每一个非学术界的演讲人都不忘在最后加一句「顺带一提,我们在招人」,但是没有人的招聘信息特别吸引人。想要在竞争型市场中找到顶尖人才,你需要建立联系。如果你不在建立真正关联上投入必要的精力,或者人们不想和你建立交流……恭喜,你不会得到顶尖人才了!当我们在彼此身上下投资时,不论招聘结果如何,我们的整个生态系统会变得更好。这就像建立友谊一样,是一项永远不会失败的策略。我们还有许多事情要做,我们还能用机器学习技术完成许多壮举,让我们脚踏实地,为未来的发展建立良好的关系。


2.炒作过度?并非如此


鉴于媒体喜欢推销和夸大深度学习技术,我之前其实稍有预见,会看到许多演讲者宣传他们的创业公司或品牌。在回忆中确实看到了一些这类情况,但是总体而言,演讲者们还是将注意力放在技术和应用上;干货很多,参会者们之间也有许多诚恳的交流。


3.对深度学习在特定领域应用的关注增多


去年,许多演讲者都在致力于开发公开的数据库(ImageNet, COCO 等)和分析不同算法的长处/短处。从那时起,我们看到了许多在图像分类上的前沿进步(ResNets)、在递归网络上的进步、对强化学习优势的有力证明(AlphaGo),在生成模型上的更多关注、以及 NVIDIA 和 Google 在硬件上的大量投资。真是全面开花!但是,从会议话题上来看,今年应当属于集中型应用,而不是讨论一般任务的学术基准。我相信这是走向专门化的必然路线,并且在接下来几年也会继续保持。


4.Metamind 被收购


Metamind 公司在去年表现突出,但是近期被 SalesForce 收购之后,没有出现在今年的活动中。


5.在金融、网络安全、时尚领域的初步探索


对深度学习模型的新应用不断地涌现。去年我们看到了关于脸部和情绪识别的演讲,今年我们有关于检测「高饱和度口红」的演讲。


6.定制 ASICs 和 GPUs


Nervana Systems 在今年表现突出,我十分享受和他们讨论 Nervana 即将在 2017 年发布的定制深度学习 ASIC(专用集成电路),以及他们的深度学习软件平台 Neon。相关新闻报道,谷歌近期宣布他们已经在生产定制 ASIC 了,NVIDIA 也在持续提升高端定制 GPU 的计算能力,可见硬件市场的竞争也变得越来越有趣了。

入门深度学习产业行业研究
暂无评论
暂无评论~