创业公司Bonsai:没有博士学位,你一样能成为机器学习专家

57f34dcc2941f.jpg

如果你是一个可以像阅读小说一样轻松防卫的 NFL 四分卫,或是一个名气响当当能够来中国开拍电影的电影明星,或是一个可以击败巴菲特的操盘手,那么祝贺你:你几乎和一名拥有斯坦福、MIT 或卡内基·梅隆大学 PhD 学位的数据科学家或机器学习工程师一样有价值,至少它看起来是那样。遍布全世界且数量越来越多的硅谷企业,都正在以一种猎头的方式疯狂地争夺这些精英。企业界已经意识到它们的竞争对手依赖于机器学习和人工智能,对该领域有经验人才的招募也大大超过了其它职位,大量空缺的职位正在等待那些还没有被脸书、谷歌和其它业界巨头锁定的人才。

但是如果你不去雇佣那些难找且昂贵的人才,而自己就拥有人工智能的技能,那又会怎样?如果有一种可以降低门槛的智能软件呢?没有很强的人才储备也能拥有深度学习技能吗?

一家名叫 Bonsai 的创业公司和一些拥有相同想法的新兴公司给出了肯定的答案。那就勇敢地去面对人工智能的推广浪潮吧。这是一场也许最终会改变上百万乃至上亿人运动。

今天,在纽约的 O`Reilly 人工智能会议上,Bonsai 的 CEO Mark Hammond 将会做这家公司的具有代表性意义的演示。(他还会宣布一轮 600 万美元的投资,考虑到今年众多风险投资公司已经在一些人工智能创业公司上投资了超过 15 亿美元,这个数字并不惊讶)。

这个演示涉及了重现一家精英深度学习公司的标志性成就之一:DeepMind 让机器自主学会玩 Atari 古老电脑上的游戏。特别的是,演示还包括大家所熟悉的一个叫 Breakout 的弹球游戏,游戏中弹杆把方形的「球」弹到墙上来阻止「墙砖」的增长。(这个 1976 年的游戏是当时最新潮的游戏,——是史蒂夫·乔布斯参与制作的!)

1-lm4CzwRk8DrSvFYsYhfq1A(1).png

37 行 Inkling 代码建立的神经网络,用来让机器自主学会玩经典的 Atari 游戏。

DeepMind 的成功依靠的是一众世界级的天才们,他们训练一个神经网络来处理一整个 Atari 系列的游戏。这个成果值得在世界一流的刊物上发表。Bonsai 的版本是一种走捷径的结果,起始于公司在云端开发的系统。一个说不定从来没上过人工智能大学课程,甚至连 MOOC 的培训也没有过的程序员也可以勾勒出一个游戏的框架,然后系统会选择合适的学习算法获得其神经网络。(而 DeepMind 里可怜的博士生们不得不自行选择或者编写算法)。在这里,程序员利用几分钟的时间勾勒出游戏的概念——类似于上文提到的弹球游戏——然后让 Bonsai 去做神经网络的工作,优化算法来获得游戏的最高分。由此产生的神经网络将能够出色地通关 Breakout 游戏。

Bonsai 版本的游戏只有 37 行代码,但是它具有欺骗性。Hammond 解释了掩藏其中的事实,他向大家展示了一幅图画,来说明它的系统是如何构造一个被称之为谷歌最强机器学习忍者之一的复杂神经网络。程序员从来用不着处理这些机器学习的东西。看啊,没有博士学位也能做这些!

giphy.gif

然后……这就是 Bonsai 的 Breakout 游戏

这是一个惊世骇俗的绝技。「我通常不会被演示所吓到,」纽约大学柯朗数学研究所的助理研究员 George Williams 说道。「但是 Mark 展示给我的东西既合理又迷人。在机器学习方面他捕捉到了我们在哪里,以及我们建立新一代人工智能所需要的工具。」

Bonsai 最终是否会领导这个运动并不确定。但是威廉姆斯对于「我们在哪里」这一部分的判断是正确的。在这个智能电脑不可阻挡地爆发的时代,下一步便是给「傻瓜」的机器学习。

Hammond 是之前微软的产品经理,很长一段时间一直在研究人工智能。Hammond 在 2004 年初离开微软后,前往耶鲁学习神经科学;在 2010 年,他在一家叫 Numenta 的公司呆了一段时间。Numanta 是由 Jeff Hawkins(Palm 掌上电脑的联合创始人之一)领导的一家人工智能初创公司。他最终离开 Numenta,又去开了一家他最终卖掉的公司。

到了 2012 年,Hammond 正在南加州拜访一群朋友。他的小儿子困了,然后所有人便回到了车上。当 Hammond 的妻子正在和朋友闲聊时,他儿子在他怀里睡着了,Hammond 便开始了一项思维实验。Hammond 开始思考一个人工智能世界中的流行语——「主算法」的概念。正如华盛顿大学的教授 Pedro Domingos 在一本和他同名的著作中指出的那样,这项还未发现的机器学习技术将是一个针对于各式各样问题的一站式解决方案。一旦科学家发明出这个算法,思维开始形成,我们就能够有条不紊地将一切东西人工智能化。

但是 Hammond 看到了这一思想的一个缺陷。假如我们发明了那个「主算法」,他把他自己当做是他怀里正在打盹的 18 个月大的儿子。那么谁将在这可能出现的无数的案例中实现它?目前,只有机器学习的专家们能够操作这类工具。然而对于这少数的专家们来说,现实世界中却有着太多的需求等待着他们去解决。他总结道,我们需要一个来降低机器学习使用门槛的系统,使得各式各样的软件开发者也可以利用这些工具。这个系统不要求高度专业化的计算机科学家来训练神经网络,而是让普通的程序员也能训练系统产生需要的效果。

由于 Hammond 提炼了他的理念,他对于这种系统的开发,类似于计算机编程技术的发展历史。最初,程序员们不得不煞费苦心地编写能直接由原始硬件识别的底层代码。然后,编码器采用了被叫做汇编语言的标准指令集,可以加速编码过程——但还是需要一些非常专业的程序员去写汇编语言。当工程师们创造了一个编译器——一个可以将已使用的高级语言(从最初的 BASIC 到 LISP 再到现在的 Python 和 C)转换为汇编语言的翻译器,计算机编程有了新的突破。因为只有这样,新手也可以创建强大的应用程序,编程技术才能够广为传播。Hammond 认为,人工智能正处在汇编语言的时代。有了类似谷歌的 TensorFlow 这样的工具,能更容易地能让科学家建立神经网络,但人工智能的使用依然只限于那些真正理解神经网络如何工作的人。他的想法是能提供一个编译器的类似物,来真正地将人工智能技术开放给大众。

他将这个想法与前微软同事 Keen Browne 进行了交流,Browne 刚刚将自己的游戏公司卖给了一家中国的互联网企业。Browne 曾试着利用流行的现成工具去进行深度学习,却感到失望,因此这个概念与 Browne 很契合。「我算是个聪明的家伙,」他说。「我去了中国,学习了讲汉语。我在微软做编程的工作。但这些都太荒谬了。」于是他联合创立了 Bonsai。(之所以选择这个名字,是因为 Bonsai(日本盆栽)这种巧妙化矮小的日本树木在自然和人工方面都取得平衡,并且这家刚刚起步的公司得以将自己的域名注册为 bons.ai。)

Bonsai 不仅仅解决了人工智能科学家人才的稀缺。一些大公司已经察觉来通过内部培训让他们的日常编码逐渐成为神经网络中的主宰:谷歌已经开发了内部机器学习程序的主机,而苹果则在他们的程序员中寻找一些能够表明他们不需花费太多努力就可以掌握这项技能的人才。正如前面提到的那样,谷歌也公开发布了 TensorFlow,用来帮助自己的科学家建立神经网络。其它的人工智能工具包也可以被开源使用,而且更加肯定的是,一些开源包中只需要比别的工具更少的机器学习专业知识。

同时还有其他的创业公司,正希望将人工智能民主化。一家叫做 Bottlenose 的公司正通过与 Bonsai 不同的目标来应对博士生的短缺——它们的产品可以被业务分析师而不是软件开发商来使用,但他们的说辞都是相似的。「我们让不是科学家或者程序员的用户也能使用我们的产品,」公司首席执行官 Nova Spivack 说道。其他初创公司则希望布下更大的网——在 O`Reilly 会议上,一家名叫 Clarifai 的公司的演讲题目是「如何让世界上的每个人都能训练和使用人工智能」。

因此,Bonsai 虽然看起来是在正确的时间出现在正确的地方,但是在人工智能领域有如此多的活动,可能使得 Hammond 的初创公司很难获得足够关注。Siri 的联合发明人,人工智能科学家 Adam Cheyer 目前是 Viv 的首席科学家,他已经看到了这款产品并对其印象深刻。但他指出,即使 Bonsai 让人工智能伸手可及,人们还是必须要做出一些心理的预判和投资,来了解其编程语言和整个系统。「当类似谷歌这样的大公司开发出了新的东西,人们会推翻之前自己的东西并想去尝试,」他说。「但是,当你是一家初创公司,更重要的是是否会有足够多的人去尝试。他们是否有足够强的吸引力来让足够多的人克服障碍来将其变成一个流行的工具?我并不知道 Bonsai 能不能成功。」

Hammond 和 Browne 将他们的公司设在伯克利,Hammond 的妻子也在这里的大学任教。Bonsai 的办公室设在市中心的被富国银行大楼所包围的狭小空间中。当我去参观时,这家公司刚刚聘请了自己的第 20 号员工,另一个工程师。他们已经利用了包括大脑在内的一些组件建立一个系统,一个基于云的系统来构建神经网络,一个叫做 Inkling 的脚本语言,和一个可以让所有程序员在同一个地方获取到所有工具的「集成开发环境」Mastermind。(「让应用程序去创造应用程序」,布朗说道。)Bonsai 系统将在今天向选定的测试者开放。

1-OyJdm404_sB3ePXpYhmN7g(1).jpeg

Mark Hammond 在伯克利市中心的 Bonsai 总部

正如 Hammond 描述的那样,利用 Bonsai 建立一个神经网络和专家所建立的网络有一些关键的不同点。目前,对于一个问题,你需要选择哪些是适合的工具,这个决定依赖于你的经验和知识。据 Hammond 说,Bonsai 为你解决了这个问题,所有你需要做的就是制定出你希望教给系统的概念。

所以当经验丰富的人工智能科学家将通过理想结果的输出参数来「训练」一个网络时(例如,给他展示一张狗的图片,如果输出参数中展示了狗的特点则进行奖励),Bonsai 会允许你通过分解理想结果中的概念来「教育」系统。对于狗的例子,你可以指定诸如四条腿、狗鼻子、挂在下巴上的大长舌头等等。你给它一个推力,然后 Bonsai 的「云端智能引擎」,包括其「大脑」,就能计算出结果。

这显示出了一个积极的副作用:在传统的神经网络被训练之后,科学家往往不知道他们是如何展现他们的魔力的,因为这些网络很大程度上都是自我配置,通过自己高深莫测的方式来组织不同的概念。但是利用 Bonsai,用户阐明的某一概念会给一个神经网络的思考提供一个指南。「软件不应该是一个黑箱,」哈蒙德说。例如,他解释道,如果你正在编写一个自动驾驶车辆和一个没有及时刹车的车辆,你应该在特定的瞬间观察系统正在思考什么——有点像是当亚马逊解释给你为什么它推荐了一本特定的图书给你一样。

利用 Bonsai 的做法出现的一个很大的问题是,是否这一切抽象的过程会降低性能和效率。这也是编译器通常会发生的问题——运行带编译器的程序不会和运行直接指向硬件的汇编语言一样快和高效。此外,认为一个系统能够在选择神经网络的工具时拥有和计算机博士生一般的聪明敏锐,其实有些言过其实。

「我认为总是会有一些权衡,」人工智能科学家 Lila Tretikov 说道,她之前是维基基金会的负责人。她也为 Bonsai 提出了建议。「这和拥有一个博士生的团队还是不完全一样的,但是我不知道这个系统的出现需要做到这一点。」Viv 的 Adam Cheyer 也预测 Bonsai 的代码可能无法和为特定系统开发的优化软件的代码一样有效运行。「但是,这是相当不错的代码,让你停留在更高的抽象水平上。」Cheyer 说他自己的公司,配备了宝贵的人工之智能科学家,可能不太会使用 Bonsai,除非作为一种在传统方法实现之前用来做出产品原型的可用工具。

对于 Cheyer 的说法,Hammond 声称,利用 Bonsai 很少产生极其学习效果衰减的现象。「它在一天结束的时候往往能获得更好的性能,」他说。「这是那种试了才知道好不好的事情。」现在尝试正在进行中,我们拭目以待。

Bonsai 在未来几个月有一些大计划。本星期宣布的另一件事是与芯片制造商 Nvidia 的交易,来确保 Bonsai 的客户可以在特定硬件上有效地运行神经网络。该公司还将公开他们与西门子高新技术企业中心的合作,即过去几个月在工业自动化和控制中心测试 Bonsai。

Bonsai 本身就是试图去破解一些连人工智能领域的巨头们都没法解决的问题。「我们正在很多游戏上进行工作,」Hammond 解释道,这些游戏是 Bonsai 所希望解决的很多问题的中介。「有很多类别的游戏还没有被解决,甚至连 DeepMind 也还没有成功。当他们在训练 Breakout 之外的其他 Atari 游戏时,他们的系统还从未通关 Pac-Man。」

但更大的背景问题是 Bonsai 如何融入其中,并将人工智能交到那些没有具体训练它们的人的手中。我们可以期待更高级别的工具会越来越强大,并且最终将无处不在,然而我们真的会做到让世界上所有的人类都能训练和使用人工智能吗?这么说吧,已经有很多明智的投资都押在这里了。

「我们将有分析师存在于云端,」Bottlenose 的 CEO Spivack 说道,「我们可以向这些虚拟咨询师们寻求『个人决策支持』,从而解答一些问题,诸如『我应该去哪个大学?』收费即使不为零,也只是微不足道的。不会有任何只因为你买不起人工智能而产生做出错误的决定的藉口。」

或许我们甚至会知道人工智能将在哪里征服 Pac-Man。Bonsai 还没有到那一步。「我们正在致力于此,」Hammond 说。「我们还没有正式宣布结果。」

入门创业公司机器学习入门Bonsai
暂无评论
暂无评论~