车好多CTO张小沛:从高管到一线,如何营造全公司一致的数据价值观

本文为清华数据科学研究院联合大数据文摘发起的年度白皮书《顶级数据团队建设全景报告》系列专访的第一篇内容。《报告》囊括专家访谈、问卷、网络数据分析,力求为行业内数据团队的组建和高校数据人才的培养提供指导性意见。前往文末参与填写问卷,将获得《报告》完整版~

尽管从宜信跳到车好多集团(瓜子二手车母公司)已经有两年时间,出身微软的车好多CTO张小沛依然被频繁问到,当初为何选择来一家“二手车公司”。

“一般人对二手车这个行业的看法比较传统,但我们想用技术去重塑这个行业,做效率革命,这一点我们在管理层是有共识的,而且是从创业最开始就有高度共识的。”

张小沛,任车好多集团CTO,全面负责集团技术及金融业务,参与制定公司的战略。

加入车好多集团前,张小沛曾担任宜信CTO兼宜信大数据创新中心总经理,主管宜信技术部门,以及大数据及互联网相关的业务、互联网营销、大数据驱动的反欺诈及风险控制,互联网以及移动互联网金融产品的战略制定和落地实施。张小沛的职业经历还包括担任美国著名在线视频公司Hulu全球副总裁,负责Hulu视频推荐系统、搜索引擎等多个核心技术产品的研发;微软在线广告团队首席研发总监,负责微软展示广告精准投放技术的研发等。

张小沛毕业于清华大学计算机科学与技术系,获本科学位及硕士学位。

不止张小沛,从管理层到基层,这种对技术和数据的高度敏感和推崇度充斥于这家企业的各个角落。比如采访前,在市场高级副总裁的办公室书架上,大数据文摘记者很难不留意到在众多经济类书籍中“乱入”的“大数据教科书”——舍恩伯格的《大数据时代》。

这种数据氛围与车好多集团CEO、瓜子二手车创始人杨浩涌自身的工程师背景密切相关。但更重要的是,包括杨浩涌、张小沛在内的整个管理层都深刻地意识到,数据化为核心应该是一个从上至下、需要全公司共同完成的事业。

在车好多,“数据驱动就在大家日常的交流中”。在决策中,任何人陈述任何观点,都要有数据的支撑。“数据驱动不是一个技术团队、产品团队单独的事情,”张小沛说,“它其实是一个整个公司,从CEO开始,CTO、财务行政,需要全体配合的事情。”

技术委员会:充分的共识

数据化、数据服务、数据决策、数据驱动,在今天,这些词汇充斥着媒体的头条,和各类公司的报告中,但要真正推动起来却是一件棘手的事。

“企业的数据驱动是很体系化的事情,复杂度非常高。”张小沛说,在整个的一套数据体系中,要把数据采集、数据清洗、数据关联、挖掘数据等做成一整套体系,不光需要技术团队内部的一致性,关键还需要业务团队的充分共识。技术团队收集的数据是从业务团队的工作中得来,如果业务团队不配合,没有根据真实情况来提供数据,就会产生很多噪音

为了协调各方,车好多内部成立了一个多团队参与的协同组织,从技术团队和产品团队,到运营团队、业务端,甚至财务人员都参与其中。这个被车好多内部称为“技术委员会”的机构不仅制定规则、做顶层设计、协同各方,产生问题时,还可以在“委员会”层面进行充分的讨论。

当然,这一“委员会”的设置也经过了一番探索。

张小沛介绍说,最初只是在技术团队内部成立技术委员会,但最后发现缺乏与其他团队的合作,很多事情的推动会相对不顺畅。这才决定在保留技术团队内部这一委员会的同时,在需要与其他团队合作的时候,就让相应的团队也加入进来,裂变出更多的沟通协作机制。

但是对于很多业务端的工作人员来说,“技术委员会”这个称呼太过冰冷。为了让相关人员产生认同感,裂变出的新的“委员会”多根据实际的应用场景来命名,比如“定价委员会”、“场地委员会”,让团队成员们感到这是与自己息息相关的事情。

让财务人员也加入技术团队听起来是一件新鲜事,但张小沛觉得这对于车好多来说理所当然且必要。

“这是我们平台特有的,因为二手车新零售是要做人货场的重构,涉及很多钱财物,在设计业务流程的时候,在定义数据规范的时候,都有资金的维度,包含着很多财务专业的概念,不把财务拉进来的话,很容易出问题。”

这些组织通过频繁的沟通来保证团队协调。据张小沛介绍,这些委员会都至少每周要开一次会,甚至可能更频繁,这也与车好多整体业务都处在高速发展期有关。

张小沛说,所谓的数据化,其实是一个认知形成的过程,习惯是需要培养的。“我们在委员会层面来讨论一件事时,你没有数据支撑我是不认可的;或者说如果你给我的数据支撑当中,逻辑是对不上的,也得重新整理论证。”

而整个公司集体一致的认知形成,关键在于管理层的高度共识。“如果上层没有共识,从下往上是非常非常难做的,”张小沛说,“我觉得比较幸运的地方就是我们整个管理层从CEO开始,到总裁、COO,到财务市场等的中后台职能,到一线业务是有高度共识的,而且不是从今天才有高度共识的,从最开始其实大家都是有高度共识的。”

数据团队:以业务为导向的大闭环

谈到技术团队的定位,张小沛说,一个大的互联网平台,是没有办法单纯地把自己的技术团队定位为数据团队或者AI团队的。因为要把一件事情做成,既要有AI的成分,又得有数据的成分,还有跟AI和数据都不相关的成分。

“技术团队内部我们一直在讲四个化,数字化、数据化、智能化和微服务化。其实你可以看到它涵盖不同维度的侧重点,必须是一个综合的技术团队。”

车好多的数据团队建设更多的是把数据跟业务结合在一起的融合的方式。张小沛用“闭环”这个词来解释:“数据是流通的,一环一环在紧密的交互,都在帮着对方去迭代,互相去增强。”

具体来讲,研发人员做的数据平台和数据工具都建立在一定需求的基础上,而产品经理则是总结和提炼这些需求的人,他会深入到业务端,去感知和搜集需求;运营团队中有数据分析师,他们是数据的使用者和数据工具的需求方。但由于运营人员本身也是个中间方,而不是直接的业务方,也可能会有不接地气的情况,所以在业务端也会有一个前线的支持团队,去提炼前线的需求,去试用数据工具,再提出调整的需求。

也就是说,从前线到运营再到后期,团队中都会有数据相关的人员,他们分别在提炼需求、对需求进行证实或者证伪,在试用、迭代、优化,在为最前线的业务人员提供培训,这就是张小沛所说的“一个完整的闭环”。

这是多个团队、不同层级、不同维度的人一起搭建起来的数据体系,张小沛说,车好多现在也还在探索的路上,每个环节可能都有改进的空间,但一个完整的闭环已经形成。

在这个闭环里也有一个数据平台团队作为中心的组织区,建立数据仓库,通过数据规范、数据治理、数据展示,将各方组织起来。车好多的算法科学家们也会参与到这个大闭环中,他们最主要的职责更多的是解决具体场景的问题,是以业务为导向的。

2016年,严重的雾霾席卷了全国各个城市,给瓜子二手车的评估师们带来了很大的困扰。在雾霾环境下,评估师们拍出来的车的照片都变得模糊不清,对客户的吸引力大大下降。

针对这样的现实问题,瓜子的算法科学家们开发了一套图片处理算法,能够自动给照片去霾,使前端的转化率大大提升。

瓜子二手车人工智能最初落地的两个场景,也是基于现实的需求。

图像识别和智能调度是人工智能落地最初的切入点。由于瓜子二手车每天都需要上传新上架的二手车照片,而评估师们用手机拍摄的照片质量参差不齐,需要运营团队花费一定的时间进行审核和修图,使得用户难以在第一时间看到这些新上架的车。为了提高用户体验,瓜子才开始投入精力做图像的自动校准和自动审核。

智能调度的场景也是基于现实需要。瓜子二手车在全国各地执行的C2C模式,从上门评估到约买卖双方看车,整个流程中有大量的服务人员,怎样安排这些人员能达到最好的客户体验,实现最高的转化率,这些问题从前都是由城市经理等人凭感觉来做决定,效果究竟如何并不清楚。于是,2016年技术团队开始投入做评估师和销售人员的智能调度,从智能路线规划,到根据评估师和销售人员的专业及优势点做合理匹配等举措,产生了双倍甚至三倍的人效提升。

“我们还远没有做到研究院的程度,”张小沛笑说,“我们是非常实用,非常现实主义的,都是给一个具体的问题让他去解决,比如说新零售保卖这个场景要定价,这是一个大的问题,我们就会把他去拆解,拆解成不同的子环节,用不同的算法去解决,这也需要跟业务端、运营端进行紧密的结合。”

数据配合战略:线下数据场景的开拓

张小沛表示,车好多对于自主研发的方针非常坚定,因为这是公司的核心竞争力,并且很多设计是需要非常贴近、了解场景,才能量身定做出来的。

但是相较于车好多庞大的线下团队,技术团队的规模却颇为“精英化”:公司技术产品团队目前有三千多人,而车好多集团员工总数已经超过两万人,以至于COO雷雁群笑称,车好多是一家“劳动密集型的高科技公司”。

业务有先后轻重之分,而哪些任务放在优先位置,这个决定既需要数据支持,也需要配合公司的整体战略。

从去年开始,瓜子二手车将目标瞄准了体验更好、效率更高的线下保卖服务。为了配合这一战略,需要有场地,需要开始真金白银去收车,因此定价能力变成了核心竞争力,成为技术重点铺入资源的方向。从线上走到线下,瓜子也开始了二手车新零售的尝试。

新零售供应链的要求与普通商家不同,出售的车不是来自厂商,而是来自个人卖家,供应链的要求是要收车,而收车的关键在于车况真实、车价合理,在这两个方面车好多都投入了大量的精力,用算法和智能硬件去赋能。

为保证车况更加真实,他们推出了瓜子眼镜,让评估师上门评车时戴上眼镜,将评车全程录像并实时传送云端,由专家在云端进行监控,让评车过程更加规范化。同时,在数据端对比车辆历史数据,进一步指导评估师提高评估效率和准确度。

二手车定价的难点在于“一车一时一地一况”,同样的车在不同的城市是不同的价格,同样的车这个月和下个月也是不同的价钱,这就给定价带来了很大的挑战。

不同于国内外二手车行业其他玩家,张小沛认为瓜子保卖的定价更多是用黑盒的、机器学习的方式,需要大量的数据用于学习训练,而其他公司例如CarMax则是偏规则、偏白盒的方式,难度则会低很多。

通过黑盒定价需要大量的数据输入,这些数据有瓜子二手车在线上线下自己积累的,也有一些通过合法渠道购买来的行业数据,还有通过爬虫爬取的行业数据,这些爬取得来的数据虽然不花钱,但噪音也相对地特别多,需要花大量的时间和精力去清洗。

2016年开始,车好多自己做了基因图谱库,到目前这个图谱库里已经有560多万辆车、3亿左右的车主的数据,每辆车、每位车主的数据都有上千个维度来描述,车好多技术团队对这些不同的车和人之间的相关系数也进行了计算,包括不同的人购车的可能性、浏览的可能性、搜索点击的可能性,也包括对瓜子的销售和评估师售车转化率的评估。

张小沛表示,车好多已经开始尝试对行业输出自己的图谱能力,目前主要面向一些主机厂商,将来也有可能更大范围地向行业输出。

线下新零售保卖服务的开拓,也是对数据库的一个有力的补充。瓜子二手车在线下场地的屋顶和墙角等地方都将安装智能摄像头,能够把客户在店里的所有动向自动做成动线图,能够有效获取客户的到店率、到店后在不同区域的停留时间等线下独有数据,对于对客户画像、车源的认知、车价的预估,都是很大的助力。

数据决策:贴近业务,警惕数据陷阱

数据驱动是车好多的原则,但张小沛也说,这个原则需要视具体情况来灵活运用。

瓜子二手车广受称誉的广告效果,背后也包含着强大的数据引擎。车好多设置了包括数据人员、市场人员、投放渠道人员的增长团队,通过大量的工具和平台去赋能,做广告的投放决策。增长团队的互动甚至比技术委员会还要紧密,几乎每天都有交流。投放到各个渠道的广告的效率、不同的广告词的设定、广告点击的转化率,所有这些数据都会被扫描和记录,并在效果下降时给市场团队提出警报。

但有时数据是可能出错的。

张小沛举例说,京东在618的时候把今日头条的广告全包了下来,这时从数据上看,在今日头条上投放的广告效果下降了,但在前线的市场人员会知道,这是因为京东的618活动,而不代表着今日头条的渠道不好。

“所以说不能盲目地相信数据,还是要知道底层在发生什么,具体的业务场景和流程到底是怎样的,这样你解读数据的时候才有抓手,否则就会变成数据的奴隶。”

对于未来的发展,张小沛表示,车好多正在通过技术重构二手车这个颇为传统的行业,“我们正进入一片几乎没有人踏足过的领域,既充满了对于未知的兴奋,也缺乏参照目标,只能依靠自身不断探索前行。但是我相信,大数据与人工智能会是二手车行业变革的核心引擎,通过自身快速的尝试、学习和迭代,我们会带领和推动全行业走向一个新的发展阶段。”

产业车好多CTO张小沛
相关数据
逻辑技术
Logic

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

推荐系统技术
Recommender system

推荐系统(RS)主要是指应用协同智能(collaborative intelligence)做推荐的技术。推荐系统的两大主流类型是基于内容的推荐系统和协同过滤(Collaborative Filtering)。另外还有基于知识的推荐系统(包括基于本体和基于案例的推荐系统)是一类特殊的推荐系统,这类系统更加注重知识表征和推理。

规划技术
Planning

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

感知技术
perception

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

调度技术
Scheduling

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

重构技术
Refactoring

代码重构(英语:Code refactoring)指对软件代码做任何更动以增加可读性或者简化结构而不影响输出结果。 软件重构需要借助工具完成,重构工具能够修改代码同时修改所有引用该代码的地方。在极限编程的方法学中,重构需要单元测试来支持。

噪音技术
Noise

噪音是一个随机误差或观测变量的方差。在拟合数据的过程中,我们常见的公式$y=f(x)+\epsilon$中$\epsilon$即为噪音。 数据通常包含噪音,错误,例外或不确定性,或者不完整。 错误和噪音可能会混淆数据挖掘过程,从而导致错误模式的衍生。去除噪音是数据挖掘(data mining)或知识发现(Knowledge Discovery in Database,KDD)的一个重要步骤。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

大数据文摘
大数据文摘

秉承“普及数据思维,传播数据文化,助⼒产业发展”的企业⽂化,我们专注于数据领域的资讯、案例、技术,形成了“媒体+教育+⼈才服务”的良性⽣态,致⼒于打造精准数据科学社区。

返回顶部