山世光:AI产业需要赋能平台

编者按:人工智能已成为国家级的战略目标,这激发了各行各业的AI热潮。而目前AI人才的稀缺以及开发任务的繁重,限制了深度学习落地,因此AI产业迫切需要赋能平台。中科视拓董事长山世光研究员,在2017钛媒体T-EDGE年度国际盛典上,谈深度学习生产线、以及中科视拓通用深度学习算法平台SeeTaaS。


图像识别或者人脸识别是今年以来AI实现最大爆发的领域。对于这些技术的实现,中科院计算所研究员、中科视拓创始人、董事长兼CTO山世光,将其归结为一个简单的公式,那就是“A+B+C”。A是算法,B是Bigdata,C是Computing。

12月16日,在2017钛媒体T-EDGE年度国际盛典上,山世光提到,2012年之后,因为互联网和物联网的发展,我们有更多机会收集大量数据,再加上GPU等高性能计算设备的普及,我们有机会完成大规模的机器训练。特别的,上面ABC三点中的A,即算法,最主要的就是指深度学习(Deep Learning)。

深度学习计算机视觉领域,解决了或者推动了一大类非线性的映射函数学习的问题。这样的方式,使AI开发的方法论产生了极大变化。

但与此同时,从落地角度来看,依赖于有标注大数据的深度学习也还存在非常多问题。

首先,个性化需求非常多,可批量复制的“标品”比较少。以巡逻机器人为例,可能需要开发塑料瓶子检测系统,也可能是塑料袋识别,甚至是烂白菜的识别,这么多不同的物体的识别是非常重的开发任务。

其次,从计算角度讲,深度学习的计算成本比较高,端侧的计算能力需求较大。而且AI技术的生产效率现在还比较低。如何加快生产效率,需要大量懂深度学习的专业算法人才,而现在并没有这么多的人才储备。

现阶段,AI人才奇缺。行业的硕士毕业生大概30-50万年薪,博士是50-80万年薪。对比人才数量的稀缺,开发任务却十分繁重,如果每个任务都做要3-5个月才能完成,这是"灾难性"的事情。

以下是中科视拓创始人董事长兼CTO山世光演讲发言:

非常荣幸有机会来到钛媒体今年的年度盛典给大家做一次分享。

如果说创业,我是一个新兵。我在中科院系统工作了20年,从事基础研究和应用技术研发工作。我今天的分享有很多内容跟技术相关。我演讲的题目叫《计算机视觉技术现状展望和产业化》。

首先,我们说计算机视觉是什么样的学科,要做什么的事情?

很多人不了解这件事为什么那么难?如果看一下我们需要处理的对象,就会发现它确实是非常难的任务。

我们所谓的图像是用摄像头来捕捉物体表面反射的不同颜色的光,进行采样,每个点即像素都用红绿蓝三个不同的分量数值表示不同的颜色。所以,到了计算机里面,每幅图像就是很多很多0-255之间的整数值。大家看这些数。相信没有一个人在非常短的时间内,能够通过观察这些数告诉我图像里的内容是什么。计算机视觉要完成的就是这样的任务,通过对这些数的分析完成对图像内容的理解。

这次人工智能的浪潮,首先在语音识别和图像识别领域取得了显著的进步,并进一步引发了AI在更多领域的应用。

从图像识别或计算机视觉角度讲,在2012年,深度学习首次在Imagnet评测数据集上应用,一下子将分类错误率降低了10个百分点。从图像分类的角度来讲,在2011年,图像分类错误率是26%,到了2012年,利用深度学习之后,下降到16%。到了2016年,随着深度学习模型深度不断加深,错误率进一步下降到了2.3%。也就是说,大概在5年时间里,图像识别率的错误率降低了10倍。

下面是其他五个深度学习带来重要进步的典型例子。

  • 在物体检测领域。所谓物体检测就是提供给一张照片,把照片里不同的物体,如车、人等物体框出来。2013年,在Imagnet测试集上检测正确率只有23%,到了2017年,正确率达到了73%,在视频里寻找30类物体也达到80%的精度。

  • 在视频监控领域,我们希望能够对人、车、物进行检测识别,利用深度学习,现在很多系统包括中科视拓的技术都可以实现对人、车、骑行的准确检测、跟踪以及对性别、车型等属性的大致分类。

  • 在图像分割领域,例如为了实现自动驾驶,给一幅图像之后,我们希望算法能够知道哪块是道路、哪块是树木、哪块是建筑,这是一个分割问题。从2013年到2017年,分割的准确率也从50%提高到了86.9%。

  • 还有一个任务从2015年左右才开始逐渐得到重视,即所谓的“看图作文”,就是在提供一幅图像之后,希望计算机能够生成一句或一段文本描述图像里的内容。在过去两三年里,这一技术得到了非常大的进步,有些系统产生的文本描述已经可以和人对这个图像的描述媲美,甚至有些普通人已经不能够判断到底是机器自动生成的一段话,还是真人写出来的一段话。实现这一任务采用的方法也是以深度学习为基础的。

  • 还有一些类似艺术创作的技术进展,比如我们可以通过计算给一幅图像转化风格,把一个人的头发颜色改掉,加上一个刘海,或者加上眼镜,所产生的图像可以以假乱真;我们也可以把一副普通的图像变成莫奈风格的油画,把马变成斑马,把冬天的照片变成夏天的照片。

上个月,iPhone X的发布使我们进一步对人脸识别应用有了更加深刻的认识。其实在人脸识别领域,过去两到三年,也出现了2-4个数量级的错误率下降。苹果声称iPhone X所采用的FaceID错误率大概在百万分之一,意味着如果有一百万个人捡到你的手机,只有一个人可以冒充你解锁成功。因为它采用的传感器是RGBD相机,里面不仅有彩色照片,还有深度信息、近红外信息,同时在注册阶段也会捕捉你的多幅照片,以及在识别阶段也是近距离进场的识别等等,这些方式都使得iPhone X的FaceID识别任务成为人脸识别领域一个相对比较容易的任务。其实三星Note3几年前就已经可以用人脸识别解锁,华为也在去年与我们合作将人脸识别应用到了其荣耀Magic手机上去实现对手机的半解锁。

其实人脸识别有非常多不同的应用场景,手机的应用只是其中之一,即使是一比一验证你是不是你的任务,也有不同的应用场景。比如,在机场、车站等应用场景,用身份证中的卡内人脸照片和持卡人人脸比对,在过去3-4年里错误率大概下降了2-4个数量级,达到了万分之一甚至更低的错误率,即有一万个人试图冒充你,只有一个人可能成功,在这种情况下,本人持自己身份证可以有95%以上的正确识别率。企业员工刷卡后进行人脸验证的正确率则可以高达99%。

对于这些技术背后的AI,如果我们用一个简单的公式来表达,那就是“A+B+C”。A是Algorithm即算法,B是Bigdata大数据,C是算力Computing。我想这样的公式或这样的说法,最近一段时间大家都越来越熟悉了。这三者中,A即算法,最主要的就是指深度学习算法了。

所谓深度学习其实并不是新的技术,在上世纪八十年代中后期的时候,理论、方法就基本成熟,但因为当时没有大量数据,没有足够强的计算能力,这就使在当时我们不可能发挥它的作用。

2012年之后,因为互联网和物联网的发展,使我们有更多机会收集大量数据,再加上有GPU等平民化高性能计算设备的出现,使我们有机会完成大规模的深度学习算法的训练。

深度学习计算机视觉领域,解决了或者至少推动了一大类非线性的映射函数学习的问题。换句话说,给我们一张照片,这些照片就是一些数值,形成输入x,我们通过深度模型学习一个F函数,用F作用于x,即F(x)得到我们想要得到的Y,这个Y可能是一个标签(比如猫,狗),也可能是我们想要分割的结果。

这样的方式,使我们做AI的方法论产生了极大变化。从过去,我们大量依赖人类专家知识来设计算法,到现在,变成有大监督大数据驱动的方法为主。

以一个具体的应用需求为例(从客户那挖掘出来的案例)。

我们一个客户做了小区巡逻机器人,物业希望这个机器人可以帮助解决小区管理中的一个痛点问题。小区里经常有小狗乱拉屎,所以物业需要一个狗屎检测系统。这样的话,巡逻机器人可以及时发现这样的垃圾,然后“报警”,由保洁及时来清除掉。

在没有深度学习的时候,我们需要做的是:

  • 第一步,收集一定量的包含狗屎的图像数据。

  • 第二步,人工设计或选择一些特征。

  • 第三步,选择某种分类器在收集的数据集合上测试它,看它效果好不好。如果不够好就回到第二步,不断进行反馈和调整。

这是一个人工设计特征的过程,这样的方式非常耗时,非常不高效。我们做人脸检测花了20年,做行人车辆检测大概花了10年,即使狗屎检测相对容易,可能也需要至少一年。深度学习来了之后,整个过程变得很不一样。如果我们采用众包等方式,可能在一个月时间里就可以收集上万张标注了狗屎的照片,然后算法工程师可以根据经验选择一个深度学习算法,并设定一些超参数,然后只需要让机器在收集的数据集上进行训练和学习就可以了,这个过程可以非常快速的完成,大概只需要三个月。从过去的数年到现在的数月,显然大大提高了我们研发一项AI技术的效率。

这样的方法论极大的提高了视觉技术的水平和落地效率。

我认为很多场景下能看的AI才有真的智能。所以,视觉智能会有大量场景化需求,如果我们去细看每一个领域,从公共安全、机器人自动驾驶无人机到医疗,每个领域我们都可以非常轻易的发现视觉的用武之地。如果AI有一双眼睛(也就是有摄像头),我们背后有合适的算法,机器就可以更多的替换或者辅助人更好、更高效的做我们想要它做的事情。

但从落地角度来讲,也存在非常多问题。

问题一:个性化需求非常多,可批量复制的“标品”比较少。

以“狗屎”识别机器人为例,可能明天还需要一个塑料瓶子检测,后天是塑料袋识别,再后天是白菜识别,这么多不同的物体,如果我们都采用前面说的那种开发方式,每种东西需要至少三个月,那么我们就会面临非常重的开发任务,关键是现在并没有这么多人才可以去做这么多事。

从落地角度来看,谁来做、谁去买单、谁去开发算法,采用什么样的商业模式和合作模式都是问题。

问题二:从计算力角度讲,深度学习的计算成本相对比较高。最近很多的AI专用芯片市场就是在解决这类问题。

AI技术的生产效率现在是比较低的,我们要加快生产效率,就需要人力,需要高水平的AI算法人才。可是AI的人才奇缺。现在深度学习专业硕士毕业生可以拿到30-50万年薪,博士则可以高达50-80万年薪。在座的女孩们,如果没有男朋友的话,到我们这个领域看一看。

相比可用的人才数量,这么多的视觉处理任务,如果每个任务都要2个硕士博士做3-5个月才能完成,这将是灾难性的事情。

所以,未来我们需要新的方法论,从现在有监督大数据驱动的方法论,变成知识和数据联合驱动的方法论,为了完成这些事情,我们需要更强大的机器学习方法。使得我们在不同数据条件下也可以获得稳定、可靠的识别能力,这就体现在我们可能需要利用小数据、脏数据进行机器学习

此外,用来学习的数据还可能是半监督的数据、弱监督的数据,比如给你一张照片告诉你其中有狗屎,但并没有明确告诉你这个狗屎在什么位置,如果我们能有可以充分利用这些数据的更好的机器学习方法,我们才可能更加快速的开发AI技术。

这还不够,我们还希望有更快捷的AI开发方法。比如我们希望开发一个安全帽检测的引擎,这是实际需求。我们一旦把这个任务交给机器之后,希望AI生产平台可以全自动完成全部的开发过程。机器完成这个任务的可能流程是:首先,它会理解这是一个检测任务,检测目标是安全帽,然后机器自动在百度上去搜索大量安全帽的图像,然后在百度上搜索一些关于安全帽的知识描述,例如安全帽多数是圆的,颜色各异,经常戴在人头上等等。然后,算法就通过对这样一些数据的自动处理和学习,以及知识的利用完成一个“安全帽检测”AI引擎的开发。

遗憾的是,从算法的角度来讲,以我对该领域学术前沿的了解,要达到这样的目标我们可能还需要5-10年,还不一定100%完全做到那种程度。

在此之前,工业界最靠谱的做法恐怕还是采用“数据暴力”来完成多数类似AI任务的研发。但我们如何解决缺少大量AI算法工程师的问题呢?我认为我们需要一个更强大、更便捷的AI算法生产基础设施。这样的基础设施,就像当年从专业相机到傻瓜相机的历史演变一样。

为了让我们有更多的人才可以开发AI,以满足大量的视觉智能开发任务,我们的AI生产工具要从Caffe,Mxnet和Tensorflow等只能昂贵的高端人才可以使用的开发工具发展到“傻瓜式”的AI开发平台。这样的平台应该使更多的中低端人才,即使不懂AI、不懂深度学习,也可以经过简单的培训,就可以利用自己的私有数据,在这样的软硬建基础设施平台上,方便快捷的开发出自己所需要的AI技术引擎,并便捷的嵌入自己的业务系统中。

我作为主要创始人成立的中科视拓,自去年8月成立以来,不仅做了大量人脸识别无人机视觉等计算机视觉技术服务项目,开发了多款人脸识别产品和解决方案。与此同时,我们已经研发了一个称为SeeTaaS的深度学习算法开发平台,这个平台不但在我们公司内部逐步得到了应用,也已经开始提供给我们的B端客户,使他们也具备了用自己的私有数据训练自己所需的深度学习算法和引擎的能力。相信这个SeeTaaS平台会越来越好用,最终实现我们“让天下没有难开发的AI”这一梦想!

谢谢大家!

产业SeeTaaS深度学习
相关数据
计算机视觉技术
Computer Vision

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

无人机技术
Drones

无人机(Uncrewed vehicle、Unmanned vehicle、Drone)或称无人载具是一种无搭载人员的载具。通常使用遥控、导引或自动驾驶来控制。可在科学研究、军事、休闲娱乐用途上使用。

人脸识别技术
Facial recognition

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

超参数技术
Hyperparameter

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

映射技术
Mapping

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

自动驾驶技术
self-driving

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

机器人学技术
Robotics

机器人学(Robotics)研究的是「机器人的设计、制造、运作和应用,以及控制它们的计算机系统、传感反馈和信息处理」 [25] 。 机器人可以分成两大类:固定机器人和移动机器人。固定机器人通常被用于工业生产(比如用于装配线)。常见的移动机器人应用有货运机器人、空中机器人和自动载具。机器人需要不同部件和系统的协作才能实现最优的作业。其中在硬件上包含传感器、反应器和控制器;另外还有能够实现感知能力的软件,比如定位、地图测绘和目标识别。之前章节中提及的技术都可以在机器人上得到应用和集成,这也是人工智能领域最早的终极目标之一。

语音识别技术
Speech Recognition

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

物联网技术
Internet of Things

物联网(英语:Internet of Things,缩写IoT)是互联网、传统电信网等信息承载体,让所有能行使独立功能的普通物体实现互联互通的网络。物联网一般为无线网,而由于每个人周围的设备可以达到一千至五千个,所以物联网可能要包含500兆至一千兆个物体。在物联网上,每个人都可以应用电子标签将真实的物体上网联结,在物联网上都可以查出它们的具体位置。通过物联网可以用中心计算机对机器、设备、人员进行集中管理、控制,也可以对家庭设备、汽车进行遥控,以及搜索位置、防止物品被盗等,类似自动化操控系统,同时通过收集这些小事的数据,最后可以聚集成大数据,包含重新设计道路以减少车祸、都市更新、灾害预测与犯罪防治、流行病控制等等社会的重大改变,实现物和物相联。

张量技术
Tensor

张量是一个可用来表示在一些矢量、标量和其他张量之间的线性关系的多线性函数,这些线性关系的基本例子有内积、外积、线性映射以及笛卡儿积。其坐标在 维空间内,有 个分量的一种量,其中每个分量都是坐标的函数,而在坐标变换时,这些分量也依照某些规则作线性变换。称为该张量的秩或阶(与矩阵的秩和阶均无关系)。 在数学里,张量是一种几何实体,或者说广义上的“数量”。张量概念包括标量、矢量和线性算子。张量可以用坐标系统来表达,记作标量的数组,但它是定义为“不依赖于参照系的选择的”。张量在物理和工程学中很重要。例如在扩散张量成像中,表达器官对于水的在各个方向的微分透性的张量可以用来产生大脑的扫描图。工程上最重要的例子可能就是应力张量和应变张量了,它们都是二阶张量,对于一般线性材料他们之间的关系由一个四阶弹性张量来决定。

准确率技术
Accuracy

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

深度学习大讲堂
深度学习大讲堂

机器之心编辑

深度学习大讲堂
深度学习大讲堂

高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息。

返回顶部