Clarifai是机器之心较早关注的人工智能创业公司之一。在今年 10 月 25 日,Clarifai 宣布完成 3000 万美元 B 轮融资。新闻发布的几天后,机器之心受到 Clarifai 邀请,观看 CEO Matthew Zeiler 进行新产品及技术演示,并对 Zeiler 进行了专访。
Clarifai是一家独立的图像识别初创公司,总部位于纽约。在 10 月 25 日,它刚刚收获了价值 3000 万美元的 B 轮融资。作为图像识别领域为数不多的独立玩家,Clarifai 已经在成立三年多的时间里率先将图形识别从静态图片带入了接近实时的级别,同时也收获了为数不少的企业客户。
这家公司的创始人和首席执行官 Matthew Zeiler 毕业于纽约大学,师从 Rob Fergus,也接受过 Yann LeCun 的指导。对于这家初创公司的领导者来说,他们面临着科技巨头的不对称竞争。但 Zeiler 认为 Clarifai 也有着自己的优势。
首席执行官Matthew Zeiler,纽约大学计算机科学博士
竞赛冠军
一切都要从 Large Scale Visual Recognition Challenge 竞赛说起。
2009 年,华人教授 Jia Deng、李飞飞等人建立了 ImageNet,一个巨大的,手动标注的图形数据集,为图像识别领域的研究奠定了基础。在 ImageNet 上,斯坦福大学每年都会邀请全世界图像识别研究者前来比赛,让计算机识别图片中的物体。在 2012 年的比赛中,时任多伦多大学教授的 Hinton 展示了 DeepNet 算法,其超前的准确率引起了轰动。
当时,Hinton 的图像识别准确率超过第二名 10%,达到了 83.57%。很快,深度学习被研究者广泛接受,2013 年比赛的前三名全部被深度学习方法的系统包揽,Matthew Zeiler 和他刚成立的 Clarifai 成为冠军,当时的比赛规则是:任选一张图片让算法识别,算法给出五个答案,如果有一个是正确的就算识别正确。Clarifai 的准确率是 88.26%。
Clarifai一直保持着他们的领先优势,他们在2015年初宣布,自己的人工智能系统已经可以从视频中识别信息。现在,他们的系统已经可以在大部分单次猜测中都有超过90%的识别率了。技术的不断创新是公司发展的原动力,「监督和无监督学习都应用在我们的图像识别中了。」Zeiler说道。
Clarifai 有着多元化的团队
自定义的人工智能
随着公司的不断发展,Clarifai 的技术和算法正被转化为实际应用,最近他们的两个新产品是视觉搜索和自定义模型。
Clarifai 的图片搜索不同于各大搜索引擎中以图搜图的简单应用。在演示中,Zeiler 把自己家狗的照片上传进系统,很快就搜索出大量同一品种的狗。随后,他又加入了第二、第三张图片,让搜索结果更加准确,又在结果中丢掉了不想要的图片,比如其他品种的狗。这种直观的方式不断增加搜索结果的准确性,同时也帮助算法模型进行了训练,整个过程不需要键盘输入,程序更接近智能。不仅如此,如果用鼠标选定图片中的物品,可以直接搜索出类似的物品。
自定义模型允许每个人训练属于自己的人工智能。Zeiler 演示了训练 AI 来识别不同的运动品牌(需要经过几轮后台的训练)。他先手动标识出球鞋品牌,然后展示人工智能搜索球鞋品牌的效果。从算法角度来说,训练 AI 和搜索有很多类似之处,他们采用一些技巧索引了每一个条目。Zeiler 搜索了匡威 (converse),不但成功获得了同类运动鞋的图片,还可以看到他的朋友们在社交网络上关于这个话题讨论的内容。
他们的产品或许重新定义了搜索。「不久以后,我们也许不再会习惯使用搜索框了。」Zeiler 说。现在其他公司都可以用自定义模型 API 来开发基于人工智能的产品,不需要自己去训练。这很像谷歌曾经提到的概念,将搜索埋入产品深处,对于 Clarifai 而言,现在是将人工智能融入生活的时代了。
无限可能性
深度学习曾经彻底改变了图像识别领域,但在 Zeiler 眼里,语音识别才是深度学习最先展现其无限潜力的地方,而探究深度学习处理各种任务的方法也是他工作中的最大兴趣。
在 Clarifai 的网站上有一个演示区域,在那里你会看到他们的系统已经能在六七秒时间里解析 2 分 50 秒的视频了,这意味着系统可以比人类更快地分析录像中的信息。配合公司推出的专有模型,图像识别技术可以创造无限可能。
Zeiler 向机器之心介绍道,在 Clarifai 建立伊始,他们的系统就已经可以识别物品以外的其他元素了,这也是众多开发者和大公司偏爱他们的应用的原因。计算机目前可以理解的抽象概念包括像「幸福」这样的感情,或者描述性语言,例如「风景优美」和「悠闲的」。在 Clarifai 的通用模型中,有超过 11,000 种此类概念可以被识别出来,最近上线的自定义模型就可以让人们自定义 Clarifai 的平台,识别任何东西。
现在的 Clarifai 提供人脸识别,NSFW 内容等多种专有模型。「现在我们有七种专有模型,相比其他公司的通用模型,我们能够识别出更多的信息。」Zeiler 说道,「我们的食物模型可以识别上千种食物的成分。」
Clarifai 的一个应用场景在纽约市公共图书馆。图书馆公开的历史图片和文件一般会有人工分类的小标签,但是由于名目繁多,人工分类会出现疏漏。Clarifai 在图书馆公开的数据集上使用了自己的系统之后发现,人工智能系统不仅在很多已有条目上和人工分类表现相当,还把很多当年错误的分类给找了出来(例如一些被遗漏有绿色标记的水粉画)。Zeiler 认为在这项应用中的 AI 系统已经超出了人类的表现。
纽约市公共图书馆应用场景
另一个更有趣的例子来自于公司里的一名员工。这个员工最近生了个大胖小子,他就在婴儿房里安装相机对着摇篮监控。通过训练图像识别系统,他让计算机可以识别宝宝爬出摇床、宝宝坐卧站立、以及不同的姿势睡觉的情形。在无人监管的情况下,摄像头可以自动进行动作判断,这种应用为监控设备的发展指引了方向。
识别婴儿车内宝宝的演示:宝宝不见了
宝宝在站着
宝宝睡着了
基于以上思路,Clarifai 主动向合作者提供系统核心,与其他公司的开发者们合作,联合所有人探索图像识别的各种可能性,已经获得了不少成果。其中有个让人眼前一亮的应用,是通过社交网络上棒球迷接到棒球的自拍照片(注:棒球比赛当出现本垒打或出界的情况时,球可能会落入观众席,于是便会出现能接到球的观众;很多人抓到球之后做的第一件事就是自拍一张,发到社交网络),以及这些照片下的 GPS 坐标来训练和统计棒球场上到底哪些地方(称为最佳座位)最有可能接到球,成为幸运观众。这样用户就知道去看棒球要抢什么样的座位了。
每当业内研究出现新的进展,Clarifai 的团队都会快速跟进,让他们的产品更快更高效。Zeiler 认为,目前人类只发挥了深度学习的一小部分潜力,但他深信,当他们把人工智能平台送到每个人手中以后,深度学习将会突破所有限制,让人工智能发展到新的阶段。
训练模型的艺术
在此前接受《连线》的访谈中,Zeiler 曾提到训练模型相比科学更像是艺术,在未知中探索需要创造和努力。多年来,科学家们为了搞清楚神经网络的运行机制,进行了无数次实验。但关于神经网络的内在运行方式,目前还没有系统性的理论,没有具体的路线可以指引你获得更好的性能。简单地下载开源工具包直接使用并不能跑出很棒的结果。
进行模型训练的人需要收集高质量标记好的数据,维持高效的数据结构,搭建合理的神经网络架构。当出现错误时,只有经验可以帮你调整参数、修改数据、修改网络结构等。人工智能系统需要多年的不断改进才能变得高效。「利用 Clarifai,开发者们可以跳过这一步骤,直接将最先进的人工智能应用到你的产品中去。」Zeiler 说道。
但仅有先进的技术是不够的,人工智能的初创企业似乎也长期面临着缺乏数据的窘境,但 Zeiler 认为,大量的数据当然很有必要,但对于 Clarifai 而言数据的质量更为重要。
在成立的三年中,Clarifai 已收集了 10 亿张被标记的图片用于训练。它们被分装在超过 100 个数据集中,这些数据集被用于训练特定模型,包括婚礼,旅行,色情内容等等;此外,对于需要解决特定问题的大型企业而言,Clarifai 团队也会在他们的内部数据基础上进行工作。这些数据是在互联网上无法访问的,Zeiler 认为科技巨头们在这点上并不占有优势,他的团队占有优势——他们可以使用这些数据,同时有着三年的领先经验,可以用最快的方式处理现实世界的问题。
当然,用数据训练建立的单独系统,在某种程度上来说是私有的,不应该被全部公开,面对这些连大公司都十分棘手的问题,Clarifai 将所需数据存储在安全协议框架内的云平台中以保证它们的安全,无论合作方是大公司还是使用他们 API 的小团队。
训练数据中存在的偏见是最近业界热议的话题。面对这个问题,Zeiler 虽然未能透露太多,但他认为,不平衡的数据和错误的标签在人工标记工作中是经常会出现的问题。它们在现实情况下屡见不鲜,但在学术界,很少有人探索这些问题。对于 Clarifai 来说,现实世界中出现的问题是研究中的重点,他们一直在增加人手,试图解决这些问题。
面对未来,Zeiler 信心满满地称团队拥有一份雄伟的蓝图,包括新产品和慈善活动,但现阶段主要的目标还是实现他们的路线图。
「我们的愿景是让人工智能回答所有问题,这需要全世界所有人都参与进来,因为多样化的团队才是强大的团队,多样化的用户会造就完美的人工智能。」