原创邱陆陆

专访京东集团副总裁裴健:将学界最优的方法应用在业界最真实的场景中

对于裴健教授来说,过去的一年是极为充实的一年。他在去年 7 月成为新一届 ACM SIGKDD 主席,任期两年,在今年 1 月,他又出任了京东集团副总裁,负责大数据平台与智能供应链事业部。这一年间,他在学界和业界都完成了大量的工作:在刚刚结束的 KDD 2018 上,他及合作者有三篇论文入选;另一方面京东今年也在业务转型和技术转型的道路上快速前进,完成了诸多与大数据与智能供应链平台相关的部署。

八月,我们来到了京东,与裴健教授聊了聊他近期的研究工作、在京东进行技术研发的思路和方法论,以及他作为一位「跨界达人」,对学界和业界进一步的交流与融合的看法。


学术工作:理解数据在决策过程中的作用


机器之心:KDD 2018 开幕在即,您有三篇论文被接收,能介绍下这三篇工作吗?

裴健:一篇是针对可解释性问题的(Exact and Consistent Interpretation for Piecewise Linear Neural Networks: A Closed Form Solution)。

现在的深度学习有一个不尽人意的地方,就是它的结果是难以解释、难以理解的。举个例子,深度学习模型能识别医学图像中的癌细胞,但是这为什么是癌细胞,模型不告诉你;AlphaGo 把人赢了,为什么赢了,为什么下这一步棋,不知道,下了就下了。

而可解释性实际上有很多作用,第一是验证机器的想法到底对不对?举个例子,自动驾驶系统哪怕在学了很多的数据之后仍然有可能会出错、出现事故。这时出错的过程就很重要:如果这个模型可解释,我们就可以做一些验证,来评定这个模型的安全程度;如果模型不可解释,我们就只能够做实验,而做实验是有危险的一件事情。

另外一个用处是给人类获得新的知识提供一个途径。人下棋下了这么久,突然被机器超过了,到底是人的哪部分思维局限约束了人的能力?人类棋手下一步棋的时候,绝对不是把后面的所有的棋局都算出来然后进行选择,而是用了归纳的能力。这是人独特的、目前机器没有的能力。我们能否从机器学出来的模型里面归纳?为了解决这个问题,也有可解释性的要求。

关于可解释性的诸多研究,之前使用的都是比较偏实用的方法,我们这篇论文第一次给出了一个封闭解(closed form solution),是一个在数学上可以把公式写出来的解。它的思路很简洁:如果我们能把一个神经网络局部地转化成线性模型,那么我们就可以通过线性模型来解释整个神经网络做了什么事。

机器之心:文中给出了使用 ReLU 等线性激活函数的全连接神经网络的封闭解,这个思路是否适用于其他非线性激活函数呢?是否适用于其他模型结构呢?

裴健在 KDD 这篇工作里我们针对 ReLU 这样线性的激活函数,现在我们也在把范围扩大到其他非线性的激活函数,这样的情况下虽然数学上可能没有封闭解,但是仍然可以得到一个近似解,并且近似质量可以控制。

同时,同样的思路除了可以应用在全连接网络之外,我们也在尝试用它给卷积神经网络(CNN)赋予可解释性,但是更复杂的网络,比如循环神经网络(RNN)我们需要新的方法。

机器之心:在拿到封闭解之后,在实际应用中,解释是以怎样的形式给出的?

裴健什么叫可解释性没有一个唯一定义。我们现在正在写另外一篇论文,探讨可解释性有几种可能的定义方式,以及每种定义方式下有哪些可能的方法。

具体来说,我们现在这篇文章的想法其实很简单:如果有一个例子,通过神经网络之后,给出了一个特定结果,那么我们可以给出相应一个线性模型,它可以给出同样的判断。线性模型作为一个可以给出同样结果的可以理解的模型,相当于一个解释。

机器之心:第二篇是关于网络嵌入(network embedding)的(文章名:Arbitrary-Order Proximity Preserved Network Embedding)。

裴健以前我们做网络嵌入通常都是从一阶或者说指定的某个特殊阶数的网络切入,但是在实际应用当中,因为不清楚数据处理了之后有什么样的应用,所以在嵌入阶段,我们并不清楚用几阶的距离更为合适。所以我们希望有一个通用的、适用于任意阶数的网络的嵌入,能够使得各种数据进行转换之后都能有效使用。

方法就是用一个 SVD 框架去解一个任意阶数的距离(arbitrary-order proximity)。整个框架有很好的代数性质,所以围绕任意阶节点算近邻关系的时候,不会受到特征选取和变化的较大影响。

机器之心:这篇工作在实际场景中会有哪些应用?相比于传统方法有哪些提升?

裴健以前,做网络嵌入的时候是要根据特定任务做特定的嵌入,任务改了,相应的嵌入也要改。这样的话,数据的预处理就会特别的麻烦。

我们的工作就想要改变这样的现状,如果保留了任意维度上的、任意阶上的近似性,那么能不能做完一次嵌入后,大部分任务可以直接用,不用再改了?而且针对每个任务做 embedding 还会存在过拟合的问题,可以通用的嵌入也可以避免这样的问题。

机器之心:第三篇是关于 FM 方法的(Sketched Follow-The-Regularized-Leader for Online Factorization Machine)。

裴健这篇的主题就是加速,加速 FM 的计算。现在的在线 FM 方法的问题是,性能很好、理论依据很强,但是计算复杂度太高。我们主要用了 Generalized Frequent Directions 的方法做近似然后做加速。

机器之心:您现在的研究方向主要集中在哪些领域?

裴健我的研究方向主要还是在数据挖掘这个领域,核心点还是如何理解数据在整个决策过程当中的作用,比如模型的可解释性(数据究竟如何被用起来的),以及模型的安全性或可攻击性。


业界工作:高维度数据的时效性与安全性


机器之心:京东对待学术会议的态度是怎样的?在 KDD 会议的诸多方向里着重关心哪些方向?

裴健京东一直就很重视这些顶级学术会议,追踪国际先进的科研前线。去年我还没有加入京东的时候,京东就已经拿了 KDD Cup 的奖,我当时作为颁奖嘉宾给他们颁了奖,后来又成为了同事。京东在技术的推进、在交流方面方向一直就有很好的传统。

在关注方向上,京东第一是非常重视落地的,所以我们会关注一些关键的能够落地技术,例如说大规模模型的计算、推荐方面的应用、智能城市的应用。第二个京东很关注数据,关注如何用 AI 的方法、数据挖掘的方法来搭建数据平台,如何做好数据的共享以为后面的模型建立一个数据的基础。

机器之心:您入职京东后的主要工作内容是什么?

裴健我主要是在做数据、供应链、区块链这三方面的工作。其中在数据和供应链方面,有大量的场景会用到 AI 、机器学习深度学习。举个例子,供应链有一个很重要的任务就是自动补货,自动补货里面又涉及到销量预测,这里面有很大量的工作是要用机器学习深度学习方法来做的。

机器之心:能否介绍下京东大数据平台以及您在这部分的工作?

裴健京东有很丰富的数据,我们现在大数据平台有大概 4 万台服务器,每天处理 100 万个任务,所有数据仓库、数据集市都在这个平台上运行。这样一个平台要保证几件事,第一是高效性,第二是数据的可靠性和安全性。第三是数据价值,要联通以支撑各种的业务。

我们这半年在这数据平台上的工作主要集中在如何提升京东的大数据服务的质量,利用大数据服务提升用户体验和供应商体系的运营效率等。这些工作对成本降低和用户体验的提升都是有非常明显的作用。

我们关注如何提高数据时效性、如何为京东开拓的新业务点提供业务场景支撑等。通过「知人、知货、知场」,整体对客户的服务质量都有提升。举个例子,我们的客服能不能在客户拿起电话的时候就知道他找客服的可能原因?我们的物流能不能在世界杯期间把啤酒放在离客户最近的地方?能不能做到周转库存的效率最高,客户拿到的产品新鲜度也最好?销售团队能不能不停贴近用户需求,甚至通过需求预测回到上游做到反向定制?

机器之心:京东在大数据方面接下来的计划有哪些?

裴健举两个例子。首先是大数据的时效性,传统的数据仓库,可能是每天或者每几个小时更新一次,但是现在很多的新业务,例如内容营销和「闪购」、「拼购」这些业务,要求分钟级甚至是秒级的数据更新。这实际上是对整个大数据平台提出了很高的要求。

第二个是超高维数据的运算问题。我们正在做「千人千面」,用百万级的维度来描述一个用户、一个商品或者一个交易场景。那么在此前提下,如何能够迅速地感知用户对产品的需求,把这个信息快速地传达给设计商、制造商,进行上面提到的反向定制?


学界与业界:以人才为桥梁,更快速地传达方法与需求


机器之心:京东中是如何组织相关人员进行技术研发的?

裴健京东整体的研发加起来有 2 万人规模,大部分团队的关注重点是落地实现,用技术为业务进行赋能,解决具体业务问题。技术本身的价值需要跟业务结合在一起才能真正体现,这是我觉得整个科技界应该树立的理念。所以京东的组织形式首先要看业务场景是什么。这也是我们现在能够吸引到很多的学术界的人加入到京东的一个很重要的原因。因为京东有很丰富的业务场景。

确定了业务场景之后,我们要确定相应的业务痛点,确定到底要解决一个什么样的问题。这实际上是一个双方沟通的过程:业务人员要告诉技术人员,实际业务中其实有这样一些现象,技术人员要告诉业务人员,其实我可以帮你解决一些什么样的问题。

然后我们开始定义产品,然后进行相应的研发、测试这些整个过程。

至于团队的划分,我们有时候是以业务的垂直线来分团队,例如说我们会有专门的团队来做供应链的销量预测,有专门的团队为品牌商做数据分析。也有时候按技术层面分团队,例如大数据平台有专门的团队专门做流式数据,根据不同的业务性质会有不同的划分。

机器之心:京东如何选择研发的方向?

裴健我们的研究会紧密地跟随着业务需求和业务发展:一方面是看现在业务需要什么,如何解决业务的核心需要;另外一方面是往前看一步,未来的业务方向在什么地方,未来业务方向需要什么样的技术。两方面我们都会进行研究。

至于具体采用哪一种技术,则是跟随数据特点和算法的进展进行的。例如在用什么方法进行销量预测这一点上,一开始传统的供应链行业,是用很少的几个指标,用统计模型去预测。但是现在我们的指标非常多,传统的模型就做不好这个任务了,深度学习模型就进来了。

机器之心:京东现在的技术人才储备与需求状况如何?急需哪些类型的人才?

裴健整个京东除了技术在转型,业务也在快速发展以及转型。所以从人才角度出发,现在我们绝对没有人才饱和这个问题,我们现在仍然是求贤若渴,希望吸纳更多的高素质的人才进来。

同时我们的技术转型与技术提升也包括了现有员工的技术提升,很多原来做传统的技术工作的员工,通过学习和在项目当中的锻炼,能够把机器学习等新的技术应用到工作中去。

京东对于人才的需求也是全方面的,从数据挖掘、数据科学方面的人才,到云、大数据、系统方面的人才,都是我们所需要的。

对于我的团队来说,我最希望加入我们的人才有「技术直觉」。我们不希望一个人来了只会调模型,我们希望他还知道为什么这样调模型,到底在调的是什么,有看透技术本质的直觉。第二个是对业务的兴趣,如果一个人对业务完全没有兴趣,很难去业务的环境下发挥很大作用。第三我们希望团队有打破框架去创新的欲望,希望团队手上有技术的工具之后,有欲望做创新。

机器之心:学界与业界之间交流与融合如今处于什么状态?还有哪些可以提高的部分?如何进行提高?

裴健这二者的融合会越来越好,学术界更多提供技术和算法,工业界则会提供很多应用场景的背景以及数据。

举个例子,京东最近也在做智能优化大赛,我们提供了两个在业界非常宝贵的数据集,分别是仓储数据集和供应链数据集。这些数据集对于学界有非常大的作用。而我在学校一直做的事情也是偏向于应用驱动的。我们做的问题一定是来自一个应用场景,一个实际需求。

但是从人才的角度讲,人才培养和人才需求之间还存在一个非常巨大的鸿沟。大学在课程和培养方法上都远远落后于业界,业界的需求传递到大学需要大概 3 到 5 年的时间,「反向定制」的效率很低。另一方面,业界对学术界的这种信任和灵活性都比较弱。业界往往心很急,觉得学学术界东西太虚了。因此如何使两方能够更紧密的结合,是非常关键的。

一方面,以后我们能不能有一些博士后不在大学里培养,能不能在公司里创造一些被大的具体应用场景包裹的小的研究环境。另一方面,公司里的人能不能更多回到学校去,去直接地建立沟通的管道,把业界最直接的需求的声音传递到研究者。这都是值得思考的做法。

产业KDD 2018京东
1
相关数据
裴健人物

京东集团副总裁,加拿大一级研究讲座教授(大数据科学领域)、加拿大西蒙弗雷泽大学计算科学学院教授、统计与精算学系和健康科学院兼职教授,前华为首席科学家。裴健在数据科学、大数据、数据挖掘和数据库系统等领域,是世界领先的研究学者,擅长为数据密集型应用设计开发创新性的数据业务产品和高效的数据分析技术。他是国际计算机协会(ACM)院士和国际电气电子工程师协会(IEEE)院士,ACM SIGKDD(数据挖掘及知识发现专委会)现任主席。因其在数据挖掘基础、方法和应用方面的杰出贡献,裴健曾获得数据科学领域技术成就最高奖ACM SIGKDD Innovation Award(ACM SIGKDD创新奖)和IEEE ICDM Research Contributions Award(IEEE ICDM研究贡献奖)。

区块链技术

区块链是用分布式数据库识别、传播和记载信息的智能化对等网络, 也称为价值互联网。 中本聪在2008年,于《比特币白皮书》中提出“区块链”概念,并在2009年创立了比特币社会网络,开发出第一个区块,即“创世区块”。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自动驾驶技术技术

从 20 世纪 80 年代首次成功演示以来(Dickmanns & Mysliwetz (1992); Dickmanns & Graefe (1988); Thorpe et al. (1988)),自动驾驶汽车领域已经取得了巨大进展。尽管有了这些进展,但在任意复杂环境中实现完全自动驾驶导航仍被认为还需要数十年的发展。原因有两个:首先,在复杂的动态环境中运行的自动驾驶系统需要人工智能归纳不可预测的情境,从而进行实时推论。第二,信息性决策需要准确的感知,目前大部分已有的计算机视觉系统有一定的错误率,这是自动驾驶导航所无法接受的。

激活函数技术

在 计算网络中, 一个节点的激活函数定义了该节点在给定的输入或输入的集合下的输出。标准的计算机芯片电路可以看作是根据输入得到"开"(1)或"关"(0)输出的数字网络激活函数。这与神经网络中的线性感知机的行为类似。 一种函数(例如 ReLU 或 S 型函数),用于对上一层的所有输入求加权和,然后生成一个输出值(通常为非线性值),并将其传递给下一层。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

阿尔法围棋技术

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

数据挖掘技术

数据挖掘(英语:data mining)是一个跨学科的计算机科学分支 它是用人工智能、机器学习、统计学和数据库的交叉方法在相對較大型的数据集中发现模式的计算过程。 数据挖掘过程的总体目标是从一个数据集中提取信息,并将其转换成可理解的结构,以进一步使用。

卷积神经网络技术

卷积神经网路(Convolutional Neural Network, CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。卷积神经网路由一个或多个卷积层和顶端的全连通层(对应经典的神经网路)组成,同时也包括关联权重和池化层(pooling layer)。这一结构使得卷积神经网路能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网路在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网路,卷积神经网路需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。 卷积网络是一种专门用于处理具有已知的、网格状拓扑的数据的神经网络。例如时间序列数据,它可以被认为是以一定时间间隔采样的一维网格,又如图像数据,其可以被认为是二维像素网格。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

过拟合技术

过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。

因式分解技术

在数学中,把一个数学因子(比如数字,多项式,或矩阵)分解其他数学因子的乘积。比如:整数15可以分解成两个质数3和5的乘积,一个多项式x^2 -4 可被因式分解为(x+2)(x-2)。

推荐文章
暂无评论
暂无评论~