依图科技 CEO 朱珑:我们是如何做智慧城市的?

依图科技 CEO 朱珑:我们是如何做智慧城市的?

新旧血液不断融合,旧规则被打破,新边界因此扩宽。

作为最早一批闯入泛安防战场的 AI 公司,依图历经七年磨砺,手握十亿级的全球最大规模人像对比库,先后参与全国近 300 个地市的公共安全建设,终于在前排段位中获得一席之地。

依图同时有着传统安防公司低调收敛的一面,在这个封闭而残酷的市场,少说多做永远是第一准则,所以我们很少看到依图对外谈起安防业务。在今天的厦门人工智能峰会,朱珑首次系统性地对外解构了当下依图布局智慧城市的核心思路,同时透露了将在厦门市推进智慧城市业务的计划,值得琢磨。

1、从视频和摄像头的角度来看,智慧城市的管理分为五个等级,从最简单的代替人记录、可追溯,到可检索,可关联,再到可预判、代替人的决策,最后可规划、代替人统筹。

2、智能技术要往下跃迁,最重要的就是提升基础设施,而智能技术的基础设施就是数据、算法、存储、算力和传输。

3、城市智能的提升以基础设施的提升为驱动,比如增加感知的密度,增加算法的识别能力……逐步累积就能在整个城市规模上实现智能等级的跃迁。

4、智能密度的提升分为宏观和微观两个角度。宏观上,单体智能要变成群体智能,识别的内容要汇聚在一起才能形成新的大的智能体。微观上,要普及成从一个算力到 1 万个,甚至 10 万个,算力要急剧提升,才能有经济性,高性价比的基础才能够普及开来。

以下为朱珑演讲内容,经机器之心编辑。

我先简单介绍一下我的背景,从中能看出美国研究人工智能的不同学派。我在美国待了十年,我的三位导师,一个是学理论物理出身的 Alan Yuille,他也是霍金的学生。第二个是我在麻省理工大学人工智能实验室读博士后的老板 Bill Freeman,他也是在今年 4 月人类首次拍摄到黑洞照片研究小组的领导者。

第三位大家可能比较熟悉了,纽约大学教授 Yann LeCun,他是推动这一轮人工智能浪潮兴起的技术——深度神经网络的其中一位奠基人,他也因此获得了 2018 年的图灵奖。由此可见,在美国从物理到深度神经网络再到脑科学,不同领域的顶级专家都在研究人工智能,他们推动了过去几十年人工智能的发展,让 AI 有了今天这个基础。

那么,人工智能现在处于一个怎样的状态?

刚才高文院士有讲到人类智能的演化用了大约 630 万年。我总结了人类文明的变迁:600 万年前,人类从直立行走到形成了最原始的社会形态用了,再到 1 万年前的农业革命,工业革命我们花了 200 年,而人工智能从一九五几年开始到现在,也就 60 多年的时间,人类的文明史或者是地球的文明史大致就是这么一个历史。

依图科技 CEO 朱珑:我们是如何做智慧城市的?

从眼睛看到这个世界的感知智能到语言也即认知智能的诞生,到今天很可能出现一个新的物种,那就是机器,它慢慢地具备了人类的智能。这里有两条曲线,黑色的表示从生物自然界产生的人类的智能曲线,另一条金色代表机器的智能曲线。当机器的智能曲线与人类的智能曲线交叉甚至超过的时候,文明的形态会是什么?这非常值得我们遐想和憧憬或者是思考。

我今天给出最重要的一个观点就是,文明的变迁靠的是科技的推动,科技推动就是基础设施的革命。这里我列了一些不同文明时代的基础设施,从刚才谈到的发明火到使用文字,农业文明时期有了轮子、道路;工业文明出现了蒸汽机、内燃机,有了铁路;信息文明,也就是我们过去 30 年的互联网时代,出现了计算机、PC、互联网、手机,人类克服了时空的障碍。这几个最重要的基础设施的变革,导致了文明的变迁。

我们现在处于什么时代?我们这个时代的基础设施又是什么呢?过去 30 年,CPU 运算能力提升了 100 万倍,存储能力也提升了 100 万倍,通讯能力也即数据的传输速度提升了 100 万倍。我们现在是站在过去 30 年的基础上来看接下来发展的基础。

智能时代只谈开始的时间可能定义得不清楚,这里只谈 2019 年回溯回去的过去五年,我们发生了什么、五年前是什么。

AlphaGo 在 2015 年的时候战胜人类棋手的那一天,也是机器以计算机视觉为代表超过人类的那一天,大家可能记忆犹新。人工智能现在已经非常火了,但就是这火的过去五年,机器又发生了什么呢?

依图科技 CEO 朱珑:我们是如何做智慧城市的?

机器的算法水平又提升了 100 万倍,什么意思呢?就是人脸识别为代表的错误率又下降了 100 万,它可以从 1 万人当中识别、1000 万人当中识别、 1 亿人当中识别出你,10 亿人当中识别你,甚至 20 亿人当中识别你,这是已经看似超过人类的那个时刻之后,它又提升了 100 万倍,算力提升了 10 万倍。

从过去我们用 1 万量级规模的数据做训练,到百万规模的数据做训练,到现在用 10 亿的数据集做训练,又提升了 1 万倍,速度是非常快的。

基础设施现在处于一个什么水平?当前发展了这么多,AI 处于什么样的一个水平呢?

我这里用比较通俗的语言讲:人不需要思考、本能地一眼瞄过去,能看见的、能说清楚的、能看懂的,这也是机器可以看到的;比如说这里有人,有座位,这个是机器可以看清楚的。但这么远要识别清楚,可能有点难;比如这里有多少个人?可能要数一数,谁跟谁近,可能要想一想,机器还不一定能做好。机器可以听懂什么?

能听懂一句语音识别,但理解一句话、一个段落可能就变得困难,对一个文章的理解还比较困难。非常低阶的智能机器已经可以或者接近可以了。我们觉得智能要往下跃迁,最重要的就是提升基础设施,我后面会讲基础设施是什么。

我把机器智能分成几个阶段:

第一个就是记录功能,没有任何的识别能力;第二级是可识别,比如说摄像头能识别人脸;到第三级可关联,不同的摄像头之间识别出来信息之间的关系是什么?怎么判断?这是有关联性;第四个是可预测、可预判;第五个是可规划。大概分这个级别。

我们觉得智能的提升是在基础设施的提升上。我举城市管理的一个例子,因为城市管理当中包括安防摄像头的覆盖,把刚才讲的五级智能做一个分类,从最简单的代替人记录、可追溯,到可检索,可关联,再到代替人的推理,代替人决策,最后到代替人统筹。

依图科技 CEO 朱珑:我们是如何做智慧城市的?

右边这一列是说达到这些级别的提升,我们要怎么做。摄像头规模从稀疏分布到 20 万级别、人员覆盖从重点人员进出到人群行踪的跟踪,从主干到到网格化密度。这里可以看到我们的感知需要增加密度,我们的算法需要增加识别的能力,慢慢地就在整个城市规模上,有智能等级的跃迁。

这是一个空间布局的感觉,当密度达到一定程度的时候,就可以在空间上或者一个关键场所的围栏上,形成自己的新的高阶的智能,比如看轨迹怎么发生、事件怎么建模。

我们提了一个概念:基础设施提升的关键在于,提升一个区域或者一个城市的智能密度。分两个维度来解释,一个是宏观上,单体智能要变成群体智能,一个摄像头的智能要变成 1 万个摄像头的智能,他们之间识别出来的内容是能够汇聚在一起,能够形成一个新的、大的智能体。

微观上,要普及成从一个到 1 万个,甚至 10 万个,微观上的算力要急剧提升,才能有经济性,或者说性价比较高的基础能够普及开来。

这是我们今年 5 月份发布的 AI 芯片,这是云端的一个视觉芯片,一块芯片能够支撑 50 个摄像头的算力,那一台 1U 的服务器可以支撑约两百路摄像头的算力,比同类的市面上最先进的英伟达的方案提高 5 到 10 倍的性价比。

一个是它的能耗降低了非常多,空间降低了非常多,降低多少呢?

一个机柜能够支撑一万路摄像头的全解析的功能,且机柜中有空间的限制、电的限制、能源的限制、算力的限制,这是在一个城市在做城市的智能等级的提升上面,有了非常重要的基础设施的准备。由此,我们就可以打开城市管理的丰富的场景。

依图科技 CEO 朱珑:我们是如何做智慧城市的?

这里列了大概 18 个场景,包括机场、火车站等等,可以解锁更多的应用。我们认为,今天从算法的成就到算法的提升,到我们整个城市或老百姓都能感知到,点亮 AI 就是要在基础设施上做重大的提升。

除了刚才高院士提到的人才资本和政策以外,我们认为基础设施就是数据、算法、存储、算力和传输,一定会在未来的几年会进一步以三倍、十倍的速度再加大速度提升,这才是革命性的,这个会让智能文明更快速的到来。

这是我们的一个小小的愿景,也是希望能够在厦门以 10 万路的视觉中枢为基础,助力厦门成为全球智能密度最高、智能等级最高的城市。谢谢大家。

产业人脸识别计算机视觉依图科技智慧城市
1
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

深度神经网络技术

深度神经网络(DNN)是深度学习的一种框架,它是一种具备至少一个隐层的神经网络。与浅层神经网络类似,深度神经网络也能够为复杂非线性系统提供建模,但多出的层次为模型提供了更高的抽象层次,因而提高了模型的能力。

群体智能技术

集群智能(Swarm Intelligence),是指在某群体中,若存在众多无智能的个体,它们通过相互之间的简单合作所表现出来的智能行为,集群机器人便是集群智能一类。它由Gerardo Beni和Jing Wang于1989年在细胞机器人系统的背景下引入。

机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

推荐文章
暂无评论
暂无评论~