撰文 | 藤子
8 月 17 日,在创新工场的 DeeCamp 活动中诞生了 5 个人工智能项目,其中既有无人零售商店,也有无人送货小车,还有歌词创作机器人,「斗地主」机器人,以及聊天机器人。
DeeCamp 是创新工场人工智能工程院举办的面向全球高校学生的首期深度学习暑期训练营,从 1000 多报名学生中招募了 36 位学生,他们来自卡内基梅隆大学、纽约大学、新加坡国立大学、澳大利亚国立大学、早稻田大学、北京大学、清华大学等。既有在读博士、硕士研究生,也有本科学生,最小的学生还在读大一,今年才 18 岁。
DeeCamp 于 7 月 12 日正式开营,在历时 6 周的「闭门课程+项目实践」之后,36 位学生组成的 5 个项目组正式在 8 月 17 日的结营仪式上展示自己的成果。
创新工场人工智能工程院为何要举办这个活动,在数千报名学生中,如何挑选合适的学生,创新工场在这个过程中,提供了什么,接下来他们将会有哪些计划?我们与创新工场技术副总裁、人工智能工程院副院长王咏刚以及 DeeCamp 导师团成员梁睿聊了聊。
为什么要做 DeeCamp 这样一个训练营?而且是将高校学生作为 DeeCamp 的成员?
王咏刚:这两三年,创新工场都在集中做人工智能相关的事情。从开复的出发点来说,他对高校学生有一些期待,希望更多的人能够真正进入这个领域,而不是浅尝辄止。
社会上有很多速成课程,比如三周学会深度学习,三周学会 TensorFlow,我是不信任的。开复和我都希望能把对的学生引到对的方向上去,这是我们的一个使命。当然,这个使命也有所求,比如我们从中挖掘人才,聚拢人才,但这是互利的所求。
开复给我们提了很多要求,让我们做好高校关系,做培养学生的事情。我们就比较了很多不同的做法,觉得实践为主的活动要比纯学习或纯分享交流的活动好很多,在实践中动手做项目,在过程中拿到资源,这样的成长是最快的,这是我们训练营的基调,也是我们当时下很大决心的原因。
你印象最深的是哪个项目?为什么?
王咏刚:如果只挑一个的话,那就是无人商店,这个项目主要要求整合能力。我们不要求学生有实际的工程能力,也不要求做出的产品能运用于实际商店,他们做的就是一个原型产品。做原型产品,对整合能力要求高一些。用摄像头识别一个人的手势和一个商品的时候,在实际的环境中,要考虑软硬结合的问题。
一个摄像头,它的视角有多大,分辨率有多大,都会直接影响识别的效果,识别之后,采集商品图像,有不同的采集方法。因为把商品拿出来,有不同的角度,因此,需要不同的采集方法。那么到底应该用什么方式采集图像呢?是单张的拍照还是拍一个视频把它分解成一个不同的张数?要适应多少不同的光照?要不要适应不同的摄像头?这些都需要他们在系统的整合中,去判断。这里面发现的不同的问题比其他项目要多。
你觉得他们做得如何?
王咏刚:对一个只有五六周的学生项目和原型项目来说,已经非常不错了。但如果按照实际的使用标准来说,还不是很成熟。
你们如何挑选报名的学生?有哪些标准?
王咏刚:我们当时去各个高校包括海外高校宣传这件事,让大家报名的时候,没有想到有 1000 多人报名,我们当时只想招 30 个人,后来扩充到 36 人。
应该如何去挑选?我们当时很苦恼。当时觉得不一定非要挑在 AI 领域技术很强的学生,第一,我们是一个训练课程,是想在学生中进行普及。第二,我们不想把它局限于全都是 CS 专业的学生。第三,我们不想集中在某几个学校的学生。
所以在选人的时候,我提了几个规则,一定要顾及到海内外的学校,不同的专业,不同的经历,要有一定的女生比例。因此,这几个项目每组都有女生。我们希望使更多的、范围更广的学生对共同开发有实际的体验。
我们更倾向于比较主动、动手能力强,有一定沟通能力和团队合作能力的学生。我们进行了两轮筛选,第一轮根据学生的简历,看他参加了什么会议,做了什么实际项目,是否做过实习工作。第二轮通过电话跟学生沟通,考察他们的沟通能力、团队合作能力。
这些学生身上有哪些值得赞赏的地方,还有哪些需要改进的地方?
王咏刚:一开始,他们给我的感觉挺闷的,可能一是不太认识,二是理工科学生都有一点闷。
所以他们一来,我就告诉所有的 30 多人,虽然我们给你们提供一些方向,但希望你们每个组自己去决定做什么,自己决定跟导师怎么交流。虽然一开始他们很闷,但这方面的表现完全超出了预期,他们真的组织起来了。在这个过程中,自己去找资源,去找人合作,需要买什么东西自己申请等等,都是自己在组织。今天你看到的所有演示环节,都是他们自己决定的。
如果说有什么需要提高的话,我觉得工程能力还需要提高一些。毕竟在学校里写论文,离工程有些遥远。现在的学校教育,不管是中国还是美国,都存在这样一个问题,离我们太远,这些在他们身上表现得也比较明显。很多工程上很细致的问题,他们都需要求助导师或者其他人解决。
梁睿:我这次是协助无人零售商店团队。我觉得这 6 周的项目,特别受益于团队成员来自不同背景不同专业甚至不同地域。另外,团队做事时也非常顺畅,跟我之前接触的纯粹由工程师组成的团队工作氛围完全不一样。
拿无人零售团队举例,有一个清华的同学在技术方面,尤其在检测算法方面了解非常资深,这个组恰好有一个同学在系统的前后端开发方面非常厉害,如果直接由这两个技术大牛搭建这么一个团队,也很完美。但事实上,在项目运作初期,我们发现由于大牛的存在,所以他们不断地提出新的想法,说我们试试这个,试试那个。大家都知道,在做项目的时候,想法多可能是好事,但咱们怎么把想法收敛,落地,怎么把项目执行起来,这是一个很难的点。
在这个组,有一个学生特别有意思,它是北大的一个姑娘,做的是跟经济学相关的事情,有些偏文科。她在这个项目中很有意思地扮演了一个类似于产品经理或项目经理的角色。她告诉大家,既然有很多想法,那怎么把想法梳理起来,整合起来,先做一个 A 方案,如果 A 方案做不成,我们有一个 B 方案。应该用多长时间尝试 A 方案,如果 A 方案不成,在什么时间节点上转成 B 方案,团队中这样一个角色的存在,实际上,能让他们的项目按照时间节点很顺畅地往下执行,达成他们的结果。这是团队构成中,最让我惊讶的一件事情。
在这个过程中,创新工场做了哪些事情?
王咏刚:我们安排了场地,每个人都有自己的工位,电脑,共享的 GPU 计算资源等等。我们提供了 20 块 GPU 给他们分享使用,还有后勤的支持。
项目开始之前,我们给他们安排了一周的课程,AI 领域不同方向不同领域的人去给他们讲 5 个不同层面的课程,虽然这 5 个课程不会解决实际的具体问题,但是会把他们领进门,让他们知道如何走进 AI 大门,理解 AI 技术的思路。还给他们开放了对他们免费的网络上的机器学习、深度学习课程。
我们给每个项目组配了一个或两个导师,这些导师平常是我们的工程师或产品经理。导师不会主动帮你们解决问题,而是你们组织起来,要求导师配合你,这是我们一个基本的支持方式。
我们给每个项目写了两三句话的大方向,鼓励他们在这个方向上任意创造,在这五个项目中,至少有四个都跟原来描述的不大一样,差别很大,都是他们发挥创造的,这是我们之前没想到的,但效果不错。
梁睿:在项目过程中,每个团队无时无刻都在提出很多新的问题,虽然每个项目都有老师,但并不意味着每个老师对于解决这个问题就是最正确的人。
举个例子,比如人工智能写歌词的项目组,生成的歌词,如何跟音乐合在一起,他们完全没有做过研究,找到导师,导师找到做设计的 VP,然后找到外部的资源,给他们进行指导。在整个资源方面,给予了很大的支持。
在 AI 方面,中国高校的学生跟国外高校的学生相比,有哪些不一样的地方?
王咏刚:大部分一样,不一样的有一些普遍性的特点。国外学生动手能力,软硬件结合能力可能强一些,国外的教育,无论是实验室还是课程,更强调动手,国内相对比较死板,理论能力会强一些,但动手能力稍差一点。另外,沟通方式上,国内和国外会有一些差别,国外学生更趋向于直截了当的沟通,国内学生会深思熟虑之后再沟通,没有哪个好哪个坏,这是风格上的一些差别。
梁睿:在沟通方面,国外同学更倾向于简单直接,国内同学会花时间把事情想清楚了,再跟老师沟通,这是两种不同的方式。从我个人的角度来说,国外学生的沟通方式更利于项目尽快往前推进,因为做项目的过程中,导师可能已经踩过的坑,你来问一句,人家一句话就能解决问题,没有必要自己再花一天时间去做。这也是我的建议,沟通尽量简单直接。
DeeCamp 接下来会有什么计划?
王咏刚:我们的活动抓住了学生的需求,不只是今天现场的反馈,私下反馈也很好,他们真心认可这种方式,认为自己学到了东西,说明我们达到了最初的目的,我们最开始的原则和判断是正确的。
接下来我们会总结一下,每个组每个项目大概需要多少资源,如何把活动复制下去,我们有一些计划暂时还在制定,接下来很快会有一些更新。开复希望把这个活动连续办下去,怎么办,是一年两届,还是一年一届,或者同时在北京、上海、杭州几个地方办,这些我都觉得可以。请大家保持关注。
首期DeeCamp诞生的5个项目具体如何,以下是详细的项目介绍:
一、无人零售商店
展示的第一个项目:无人零售商店
根据项目组的介绍,他们在做无人零售店时,最开始是计划采用传统的 IT 技术,给每个商品都贴上 RFID 标签。这个方法的缺点在于成本高,因为每个 RFID 标签花费五毛钱,如果是售价两元的士力架,显然不划算。即使以后 RFID 标签成本降低到可以忽略不计的程度,但给每个商品贴标签也要花费大量人力成本。因而否决了这个方案。
在这之后,他们决定采用基于机器视觉的检测技术,在货架内部安装摄像头,检测货架上物体的数量变化,从而判断购买行为。但这样造成的问题是,如果是一个多层的货架,那就必须在每一层货架上安装一个摄像头,而且每一层货架上的物品不能有重叠,否则算法就不可靠,因此也否决了这个方案。
最终,项目组决定采取实时检测追踪的算法,只在货架边缘安装一个摄像头,从而检测到整个货架外部区域的情况,如果在购物过程中,用户拿走一个商品,算法就会对这个物体的运动轨迹进行追踪,更新购物清单。这可以解决第二种方式的局限性,货架可以多层架设,物品也可以重叠放置,而且只需控制一个摄像头拍摄外面区域的情况。
二、无人送货小车
室内无人送货小车,在项目组的规划中,它的应用场景有几方面,比如将文件送到领导办公室,待领导签完字后,再送回来;或者是快递送到门口,前台操作送货小车,使其将快递送到对应同事的工位。
在项目组的规划中,每个同事的工位都有一个固定的位置。小车在移动过程中,不仅会有人走来走去,而且也会遇到突然出现的障碍物。因而,在这个过程中,小车需要自主避障,并在出现障碍物时,动态规划路线。
再者,因为小车是送快递,需要人机交互,从而需要通过语音、视觉等方式来实现。项目组用微信接口做成的界面实现交互,比如,要送货到前台,就给小车说前台,小车则会返回一张前台的照片,以确认是这个地方。然后,小车再说「我要来了」。
而在安全性方面,项目组这次并没有涉及,但项目组表示,智能快锁,人脸识别对于安全性来说,很重要,他们接下来会完成。项目组认为,未来他们还可以考虑将网络上的快递数据同步到小车的送货系统,使小车能够自己接货、送货。
在大致的介绍之后,项目组介绍了他们的实现过程。快递是将货物从 A 地送到 B 地,需要四个步骤:一,建图。比如走廊在哪,通道在哪,每个员工的位置在哪,把整个环境规划出来。二,定位。我在哪,我要送到哪里去?这就涉及定位,需要激光雷达和视觉定位等方式解决这个问题。三,规划。从 A 到 B,需要在地图中查找路径,送货可以走哪些路径,哪条路更快更稳更准确,要把路径规划出来。四,控制,比如车的加速、减速、前进、倒退、左转、右转等,需要很好地将货送到目的地。
而无人小车的硬件方面,项目组使用了一块英伟达的处理器,以及激光雷达、双目相机和惯性测量单元等传感器。
三、人工智能写歌词
项目组将作词机器人取名为歆雅,这是歆雅根据方文山的歌词来创作的一首歌词。
创造力是大自然赋予人类智慧最好的礼物,如果人工智能不能通过学习已有的东西创造新的东西,就不能称为真正的智能。
正是如此,项目组选择了目前最为热门的生成式模型的对抗式神经网络来进行歌词的创作。在创作的过程中,会给作词机器人提供一句话,作为写作的线索和灵感,以及歌曲的结构,以此保证它不会完全乱写。
项目组认为,对于人工智能作词人,也许水平并不能完全达到人类作词人的水平,但可以给作词人灵感,比如在一首根据王菲的《红豆》写的歌词中,就出现了格桑花这一意象,如果作词人需要灵感的话,这就是很好的提示。另外,如果是音乐爱好者或者初出茅庐的音乐人,在写歌时,则可以跟人工智能合作,以解决没有专业作词人合作的问题。而对于普通音乐爱好者来说,如果听到了一首好听的日文歌或韩国歌,则可以让人工智能填上中文歌词,这也是一个比较有意思的应用场景。
四、AI 斗地主
用 AI 斗地主的演示界面
模型测试胜率
项目组认为,如果采用规则的方法来实现斗地主,有几个缺点,一,逻辑非常复杂,代码量非常大。二,规则是跟高手学习,最多可以达到高手的水平,不会超过高手。因此他们采用了强化学习的架构来实现斗地主。
五、聊天机器人
聊天机器人
在聊天机器人领域,常见的有两种,一种比如微软小冰,以纯聊天为主,产品的特色在于有趣,一般是按照用户与她聊天的轮数来判定产品的质量,另外一种是机器人客服,比如百度的度秘、苹果的 Siri,是为了解决特定的问题,产品的特点在于刚需。
根据项目组的介绍,他们制作的机器人则集两者为一体,既能聊天杀时间,也能解决一些特定问题,甚至是推荐。而他们提出一个概念:AI+恋爱。因为在两性情感问题中,如何求爱,失恋后如何挽回,甚至是如何成为恋爱大师,都是生活中的痛点。因而这个聊天机器人专注于解决单身问题高质量的恋爱经验,提供高质量恋爱经验来增加约会趣味,促进情侣的情感升级。
这个聊天机器人一共有 800 万对聊天对话语料、50 万句幽默段子语料、3G 静态表情包,10G 的高质量情感 QA 数据。
聊天机器人的总体架构
在项目展示之后,创新工场创始人、创新工场人工智能工程院院长李开复对项目进行了总的点评,他认为这次的 DeeCamp 既不是完全学术的,又跟向 VC 展示有所区别的,全方位的展示。在这些项目成员中,团队精神让他最为欣慰,而项目组在演示时的表达能力也让他印象深刻,因为每个项目组都能将项目的价值以及项目是如何做的,讲述得很清楚。
同时,他也提出了几点以后演示时,需要注意的地方:
一,要注意产品的响应速度,速度的快慢给人的印象将完全不同。
二,每个项目都有自己的主线,如果要展示给 VC 或者公司高管时,不需要覆盖各个层面,也不需要把自己拔高到「改变世界、改变思维或者颠覆模式」这种程度,如实地讲清楚自己能做什么即可。而技术能做什么,不能做什么,局限在哪里,也要坦诚地沟通。
三,在演示时,为了增强说服力,可以用真实的数据来进行验证,或者让现场的人参与进来,会比只播放演示视频的可信度更高。
四,尽管如果以后创业,大家看的是结果,但既然学术出身,就要沿袭学术传统,使用了谁的技术,应该讲清楚,让大家更了解。