Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

周海聃撰文樊晓芳编辑

对话闵万里:智慧杭州造城记


从芝加哥大学图书馆中埋首苦读的统计学博士,到如今带领阿里云 ET 大脑在交通、工业、农业中落地的首席科学家,闵万里对于 ET 城市大脑一以贯之的思想精髓是什么?面向未来,他如何描述 ET 城市大脑指导城市「二次发育」的蓝图?

自 2015 年诞生以来,阿里云 ET 城市大脑已与杭州、苏州、衢州、重庆、广州、吉隆坡等国内外十多个城市合作。作为国家四个人工智能开放创新平台之一,阿里云 ET 城市大脑在本次云栖大会上宣布对生态合作伙伴全面开放城市大脑平台。

 更新到 2.0 版本的杭州城市大脑作为 ET 城市大脑的落地样本,已经接管了杭州城 5,000 多个路口中的 1,300 个路口,覆盖了杭州主城区、余杭区、萧山区共 420 平方公里的地域,较 17 年云栖大会时已扩大了 28 倍。在全国最拥堵城市排行榜上,杭州从 2016 年的第 5 名下降到 2018 年的第 57 名。

我们在云栖大会期间,采访到了阿里云机器智能首席科学家闵万里,关于 ET 城市大脑的设计思想及未来方向进行了一些交流。在他看来,杭州建设城市大脑主要有两个经验:

1)企业一开始便从业务方(杭州交管局等)角度出发建设城市大脑,业务方有懂城市需求的「政务型产品经理」;

2)杭州市大数据资源管理局的成立,使城市数据得以汇聚一处,形成统一的「城市数据底盘」。

闵万里认为,城市问题痛点有很多,阿里今天讲智慧城市,瞄准的是老百姓当下的获得感,ET城市大脑瞄准的是当前痛点中可以用技术解、并且能用最合适技术解的问题。

用他的话说,ET 城市大脑要解决最核心的问题——如何通过多种城市数据融合产生化学反应,形成可执行的洞察(actionable insight)

在闵万里的理解中,数据是ET城市大脑的血液,城市数据是在城市这个「固定的拓扑结构网络」上流淌的「信息流」。城市里不同的人和物组成了固定的拓扑网络结构中的元素。人、政府、服务者三类城市参与者,在城市中进行不同的社会活动时产生了信息流,人群在不同社会角色的转换中产生的能量,则推动了城市中纷繁的动态信息的流转。

以下是对话实录,机器之心做了不改变原意的整理。

ET 城市大脑的杭州经验

杭州市交管局与杭州大数据资源管理局,是杭州城市交通大脑能落地的两个重要政府参与方。阿里云参与杭州城市大脑建设,是如何与两方合作的?

闵万里:我们在杭州建设城市大脑得到的一个宝贵的经验就是第一天开始就一定要以业务单位为主,不能以管理单位为主。杭州市交管局在云栖小镇城市大脑实验基地的团队相当于杭州城市交通大脑的产品经理,没有它就没有交通大脑,就形成不了在一个子领域当中的业务闭环

交警管的业务是老百姓都叫苦的通行部门,他们是真正懂业务、懂交通需求、懂城市痛点并且知道如何解决的人。我个人认为以后城市大脑的产品经理,大多都是要从政府业务部门出来。因为懂业务的人才能提出产品需求;不懂业务的人,比如互联网的产品经理去做城市大脑产品经理,风险会比较高。要懂老百姓和政府的需求,才能为政府业务部门设计更好的为老百姓服务的产品。

大数据管理局是另外一个角色。假设今天交通大脑做的很好,但若明天城管又要建一个城管大脑,后天卫计委又要搞一个卫生大脑,结果就会出现城市中各个部门都搞自己一套独立的系统,又成了智慧城市1.0的悲剧重演,条块分割、数据割裂。

谁来保证今天这些业务部门创新应用都是根出同源,源自于同一个火箭发射厂的底座?——杭州大数据资源管理局。

城市数据就是城市大脑的血液。城市大脑若缺少了数据,就成了博物馆里面的标本,停止了运作。

大家既然都在一个城市,数据底盘就要一样。数据底盘就跟水、电、网一样,以后一定是国家的基础设施。大数据管理局的数据实时汇集平台,就是他们的核心抓手。有了这个平台,各个单位的数据就有一个统一的入口。

大数据管理局相当于给未来各个细分行业的应用大脑提供输血站,它的定位就是要把整个城市的公共数据资源管好、用好,而且不能被无味地复制。 

每复制一次,数据的价值密度就降低一次。同一份数据在这儿,非要搞三份数据,最后每次用的时候就是抓阄来用,平均下来,这三份数据产生的价值跟原来只用这一份数据产生的价值是一样的,但价值密度就低了。

所以从大数据资源局这个统一的底座出发,来管理城市大脑的建设和顶层设计就非常重要。它会设一些规矩,保证数据底座是完整的,不是条块分隔的。

这就叫以政策管理机制的方式,来确保创新走在良性互动的轨道上,最后不会出现互相掣肘的现象,不然本来一个好的想法最后又走偏了。

所以交管局作为业务方,大数据局作为管理方都很重要,我觉得这是杭州独有的经验。其他城市如果没有这两套机制,很难复制。这是杭州模式当中最值得借鉴的东西。

阿里除了与杭州市公安局合作建设城市交通大脑,这次云栖大会上也宣布了与衢州市进行全方位合作,打造一个城市大脑的样板。在您看来,一个好的城市大脑样板,需要从哪些维度评估?

闵万里:我觉得一个城市大脑样板的作用就是通过实战业务效果这个标尺,把一些假的大脑甄别出来。

有的城市大脑讲来讲去永远都是连接,连接之后结不出成果,所以都是假的。

所谓样板有两个层面的衡量标准:

第一,业务闭环是否具备绝对创新的价值所在。还是说只是在炒冷饭,把原来可以做的事,在今天换一个「新」的方式再做一遍。要关注这个样板有没有业务新增价值;

第二,要看它的模式是否可持续、具有借鉴意义。

今天杭州的模式就是非常可持续,而且有高度借鉴意义的。首先数据资源局先行,这是政府理念的改变。过去讲的是,数据是政府的一个累赘,需要花钱存它;现在政府已意识到,数据是一种资源,已成了政府的应该充分利用的资产

存在「业务闭环+管理闭环」,是城市大脑能落地的先决条件;以数据平台作为抓手,才有可能将杭州城市大脑的经验在其他城市中复制、长久发展。

任何一个城市如果没有大数据资源管理局这样的一个城市数据管理机构,持续向城市大脑输送数据作为血液,即使城市大脑建成了,后面也会死掉,成了博物馆的标本。

城市数据打通

像浙江的「最多跑一次」工程本质上也是强调数据打通,我们发现阿里在这项工程上也有钉钉、ET 城市大脑等多个团队在对接?

闵万里:阿里云有很大的团队,当然还有其他团队,例如钉钉也在里面。因为「最多跑一次」涉及到业务流上的改造,业务流改造的基础是数据流的打穿。

人少跑路了,一定是有东西多跑路,那就是数据跑路,不然的话信息没通,该审核的还是要审核,只是换一个方式把审核的材料运过去。以前是靠人自己运,现在是用机器之间数据联通。

所以这是很多部门团队在一起努力的事,钉钉成为一个入口之一,但是背后是数据汇集,数据汇集就是把各个部委、部门的数据打穿。比如说医疗保险报销的时候要看社保缴纳情况、医保情况,这两个数据就要打穿。

我们看到市面上的「打穿」有两种,一种是停留在 API 层面连接的打穿,还有一种是真正的数据整合在一起发生化学反应。

闵万里:两者都有,有一些很浅显的都是 API 调用一下,比如我去查询这个人的车牌有多少次违法,这种 API 调用一下就可以了。但有些是要看这个有没有疑似骗社等,这就需要深层次数据整合与模型计算分析。

数据打通还有一个问题:现在政府各个部门都把数据当宝,就像您之前说的,从前还觉得需要高额的存储成本,现在反而不愿意把数据分享出来。

闵万里:冰淇淋握得越紧,它化得越快。现在是数据通货膨胀的年代,数据不是石油,石油不可再生,数据是不断在衍生新的。

所以既然它在通货膨胀,它的价值很快就消失了。对于很快要消失价值的东西,你捂得再严干什么。

数据的生命价值周期很短,且数量又很庞大,导致其价值密度就很低。

对于这样一种资源,只有汇集在一起进行实时的有意义的分析,形成可执行的洞察(actionable insight),转化成实际行动,才能发挥数据的价值。

城市规划,ET 城市大脑的新舞台

阿里与中国城市规划设计研究院(以下称「中规院」)合作新成立的未来城市实验室主要希望做什么?

闵万里:我们要用 ET 城市大脑指导城市的二次发育。

基本上有一定规模的城市,都不可能推倒重建,一定是基于现有格局下,对某一个特定的老城区或者某一片区划进行二次发育。 

为什么这个ET城市大脑能运用起来?假定今天 ET 城市大脑基于数据底盘,它对城市的脉络一举一动都掌控了,它就清楚知道要改造的这片区域和周边肌体之间的联动

想象一个生物体,把这块肉切掉会影响什么?数据流可以体现城市受影响的面。

假定有一个规划说现在这个区域规划是 80 层的住宅或者 20 层的办公楼或者停车场,我们把这一个规划的设想叠加在规划平台上,然后迅速通过模型计算出因为这种新的规划方案,对原来的肌体造成的影响是什么,交通的影响、电网的影响、水网的影响、土壤的压力、噪音的程度、废气的排放,甚至包括对周边的日光光照强度(因为 80 层的楼光照会有影响),会全部量化出来。

量化出来以后,就能发现这个地方是否该用 80 层,还是用 60 层,还是 50 层。所以要用数据计算、量化任何一个规划,然后指导这个城市在它的肌体上二次发育。

以往的城市大脑都是基于现有的城市道路网络和信号灯、小区,只能在固有的结构下,从局部的软处着手,做一些改良、微调。

比如杭州没有东西贯穿的路,要判断是否要建一条,就需要有数据量化的指标:第一,要不要东西贯穿;第二,如果要东西贯穿,往西边贯穿到天目山路还是贯穿到高教路老余杭,还是贯穿到另外一个点。应该怎么规划对交通的拉动性更好,这是可以靠数据说话的。

我们今天跟中规院的未来城市实验室就是要通过以往的经验、教训,其他城市的经验、教训,给城市构建一个数字化的模型,发现规划当中的规律,量化建模型之后,把这些模型用在另外一个城市当中的老区改造、新区规划

真正在建设规划的初期,就让城市有这个智慧的基因。

ET 城市大脑用数据做信号灯调控,我们不碰信号灯的硬件设施,主要通过算法对红绿灯配时逻辑进行优化,很软;未来到真正触及到城市的钢筋水泥,改变的是城市的物理基础设施的规划这是一个由软到硬的过程。

但是再之后,可能会再由硬变软。为什么?规划好以后,在整个建设过程当中又是一个数字化的进程,然后又要通过数据来指导它,所以这是螺旋型迭代上升的。

通过传感器收集详实的数据,对城市进行高精度仿真建模,以此来指导城市规划,这种方式可以取代过去传统城市规划中基于流体力学的城市简化模拟模型?

闵万里:流体力学还可以存在,可以作为大棋当中的几个棋子输入,但是今天讲的规划是一盘棋不是一个棋。一个城市是一盘棋,只有一局机会。这一局规划错了,建设完了,总不能说推倒重来。

交通之外,城市规划是这次云栖大会我们看到的一个新业务。阿里云 ET 城市大脑未来还会开放哪些其他的业务?

闵万里:再往后,城市的公共基础设施的管理。比如城市环保,像洒水车是按照固定的时间跑还是按照街道脏的程度、灰尘的厚度动态地跑,这都可以做。今天有摄像头,知道这个街道的情况,从摄像头可以分析出来这个街道是否脏。以前洒水车都是定点定时的时间表的方式运行,但今后可能不需要了,改为动态按需出勤。还有垃圾桶的管理,都涉及到城市的各个方面,只要数字化之后都可以贯连起来提升效率。

ET 城市大脑里面的应用会不会有一天能做到像 iOS 一样自动更新?

闵万里:永远不可能。太自动,就容易太随便。iOS 如果有一个病毒,手机上的东西可能都丢了。

这个大脑系统可以说是半离散、半连续,半集成的形态。具体讲,在单独的业务形态上它是集中的并且形成了闭环,像救护车、消防车,因为这里面分秒必争。但是在救护车的系统、城管的系统、洒水车的系统或者是城市规划的系统之间,可能是彼此离散的。有合有分,有交织的,也有独立的。

城市数据流机制

通过使用城市大脑治理城市问题,其实已是在城市治理的模式上实现了新突破。而开发ET城市大脑这种技术工具,本质上需要首先对城市问题有特别清晰的定义。您的学术背景,特别是在芝加哥大学写毕业论文时关于 weakly  dependence 研究,对您理解城市问题有什么帮助?

闵万里:工业和交通流中遇到的很多管控问题,其实都是关于 weakly dependence(弱相关性)的问题。

我们今天在物理世界观察到的很多「网」,交通网、路网、电网,以及工业生产线上的流水线作业形成的流水线网,城市水/气管形成的管道网,手机塔台和塔台之间形成的 4G、5G 无线电信号网,全都是有固定节点的网络。这些网络传递着动态的信息流。

近一步进入这个动态信息流,如果从一个固定的网络节点看信息流,看到的现象就是时间序列,但这个节点跟另外一个节点之间的时间序列是有相互关联的,因为有拓扑结构。

对于这种带有动力学特征的系统,怎么去发现并且量化背后的真实关联性?这就是我以前研究的问题。

我从概率论角度提出了一个理论框架,证明了在一定条件下可以重新构造一些统计变量,通过这些统计变量能够找到超大型的网络上相邻节点之间或者二、三级邻居节点之间跨越时空的关联性是多少,从而锁定最小充分子网。

最后用在哪里?用在交通当中,就是交通网调控;用在工业当中就是工业控制、自动反馈,就是流程制造的工序1、工序2、工序3之间怎么关联协动。这些工作都可以基于 weakly dependence 的原理找准实时联动的机制。

以前的做法都是假设同一节点上两个信息流是没有关联,统计学上是基于独立分布的。统计学下假定五分钟前发生的事,跟现在发生的事情完全独立没有关系,就跟抛硬币一样,前后两次结果没有记忆。

但实际情况呢?它是相关的,为什么?五分钟前这个地方发生的车祸,影响可能蔓延到后面十分钟,周边受影响,所以它的影响会传递开,它是有关联性的,就像我们说牵一发而动全身。

所以基于城市信息流具备的这种弱关联性的特征,我们如何更好理解城市数据?您曾经说过,城市大脑需要从「社会结构、社会环境、社会活动」三个维度看城市数据,能否结合生活场景具体解释一下?

闵万里:记得我刚才讲的「固定拓扑网络结构上的动态信息流」。

举个具体例子,比如说我要办社保,要报销,需要到哪几个业务部门。把关联的几个业务部门当做节点,部门之间划条线就体现了物理世界中的关联性。

这几个业务节点之间为什么会有流?就是因为有一个老百姓发起这样的请求,需要信息流从一个点传到另外一个点,因此产生了流。以前是老百姓自己跑把信息表格材料带过去,现在浙江「最多跑一次」落地后改成由数据跑。

社会结构就是上面讲的拓扑问题,把整个城市看作一个网络的话,各个业务单位、部委办、老百姓、商场都是一个节点,都是一种类型的节点。所以在这些节点之间,每天都流动着的就是信息。社会活动就是对应的信息流。

为什么讲社会环境?环境这里不是指自然环境,社会环境是指政府(管理者)、服务者和老百姓的组成的一个三国游戏。管理者可能是制定政策的人,服务者比如公交车司机,他要服务老百姓,或者医院的医务工作者。除此之外就是老百姓。

在这个大环境当中,彼此之间每一个人又可能出现角色的转移。什么意思?在医院里面我是服务者,我是医生,我服务老百姓。我回到家里我成了老百姓,发生了角色的转移,我要上班,这时候政府要服务我。社会环境就是在三国游戏当中,角色之间经常进行转换。医生也可能变成老百姓,服务者也可能变成一个被服务者。

这种视角对您定义城市问题,以及构建 ET 城市大脑有什么帮助?

闵万里:我们今天解的很多问题是在帮助政府更好进行管理,但是间接让老百姓受益。但最终,我们还是要直面老百姓的诉求。为什么不是「自然环境」而是用「社会环境」的措辞,就是对社会的结构解析,分析环境及角色究竟怎么在变。

固定的拓扑网络结构上动态的信息流,万变不离其宗,城市问题还是可以数字化映射回归到本质——拓扑结构及动态流。今天我们的核心代码就是找到拓扑结构网络上关键的路径。

一套理念和核心代码,是我们今天一系列 ET 大脑背后最根本的东西。这也是为什么短短两年一个团队能做出这么多大脑,就是抓住了最本质的问题。

有了这套想法,就有可能在看上去纷繁复杂的表象当中,找到背后本质的关键问题。找到关键路径,就知道问题的解法在哪。相当于找到复杂网络中的要害节点,去下手。

整个杭州市要排堵,不可能所有的地方都同时下手,也不是交通最拥堵的地方就要下手,拥堵是表象,要找到导致拥堵的根本原因与触发点。

同时,基于我们ET城市大脑的服务定位,在规划中也有一些想做的功能,比如寻找在这个社会拓扑图的结构上增加哪一条边,可能使得连通性变得更好,或者使得从一个起点到另外一个终点的交通流再缩得更短,把最短路径再压缩。

这种东西技术上很容易做,但今天还没有做,因为我们目前最大的痛点还不是增加政府部门的业务之间的对接关系,还是想先梳理清楚现有流程之间的对接关系,尽量简化大脑中需要定义的城市网络结构。   

对这样一个系统进行角色的定位为什么重要?这就能让你牢牢把握住一个核心要素:今天城市大脑要解的问题,是帮谁解决问题,帮他去服务谁。要讲清楚的是这一点。

产业智慧城市城市大脑
1
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

噪音技术

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

暂无评论
暂无评论~