Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

顶级数据挖掘学术会议 KDD 2017的华人之光


编者按:SIGKDD是ACM在数据挖掘领域的顶级学术会议,每年都吸引着超过2000位来自世界各地的顶级数据挖掘学者,以及知名企业代表前来参加。然而,大会的论文接收每年却仅约200篇,接收率不超过20%。


今年的KDD大会刚刚于加拿大新斯科舍省的首府哈利法克斯(Halifax)落下帷幕。在KDD 20余年的历史中,越来越多的的华人元素体现在了会议当中。从参与度到科研成就,从影响力到活动组织,华人的力量无处不在且无可替代。作为人工智能和数据挖掘领域的先驱者,微软同样在KDD 2017中表现突出,并在发展中不断寻求新的突破。


厚积薄发的华人力量


无论是从参与KDD会议的人数、论文发表数、论文影响力,还是从获奖情况、参与活动组织和参展情况等多个方面来看,厚积薄发的华人力量正在强势崛起,在KDD领域拥有世界有目共睹的优异表现。


越来越多的华人参与到了SIGKDD当中。KDD 2017的注册总人数达到了1656人,是在美国以外举行的KDD会议中参与人数最多的一次,其中华人注册参会的人数仅次于美国。但今年KDD的两个track的录取率却分别只有17%(Research Track)和21%(Applied Data Science Track),且仅有一半的论文被选为进行口头展示(oral presentation)。


据统计,今年大会的两个研究热点分别是时序数据和图算法。大部分的委员会成员以及提交的论文来自美国和中国。其中中国作者贡献了超过20篇论文。


在华人参与度持续上升的同时,华人作者的研究工作也越来越有影响力。微软学术搜索总结了最近5年KDD最具影响力的作者(如下图所示),图中泡泡的大小表明了最近五年所发表KDD的论文数,横轴表明了作者总体在数据挖掘领域的声望排名,越靠右的排名越高。该排名不仅参考了KDD发表文章的引用次数,还参考了作者之间互相引用的情况。如果一篇文章被高声望的作者引用,那么此文章的质量可能更好。纵轴则表明了作者在KDD的威望排名,该排名主要参考了每篇KDD论文标准化后的被引用数量,位置越高排名就越高。


图上的21位学者可以认为是目前在数据挖掘领域最有影响力的代表人物,可以看到华人学者占据了超过半数的位置(13人),且不少都占据了非常有影响力的位置,例如微软亚洲研究院的郑宇博士和谢幸博士。


今年的大会中,不少奖项也都由华人包揽。KDD 2017贡献奖(Service Award)授予给了香港科技大学的杨强教授,以表彰他在数据挖掘和人工智能领域非凡的服务和贡献。同时,还特别提到了杨强教授在中国成立的SIGKDD China,以及多年来在中国推动数据挖掘、机器学习和人工智能研究的作用。


KDD 2017创新奖(Innovation Award)则颁发给了加拿大西蒙弗雷泽大学的裴健教授,认可了他在frequent pattern mining领域做出的杰出贡献。裴健教授在他的talk里面回顾了当年frequent pattern mining研究的PrefixSpan和FPGrowth,并且展望了未来pattern mining和深度学习以及神经网络进行结合的发展前景。



此外,本届KDD Cup数据挖掘比赛共有3582支队伍参与,覆盖全球50个国家,730所高校,比赛规模史上最大,来自中国的队伍包揽了全部奖项。此次比赛分两个任务:预测车辆从路口到收费站的平均用时和高速收费站车流量预测。其中,由微软、美团、北京航空航天大学组成的Convolution团队将两项任务的第一名都收入囊中。


华人还在KDD 2017中组织了高品质的活动。在今年的大会上,UCBerkeley的郁彬教授发表了主题演讲,讨论了数据的三个最重要的原则:可预测性,稳定性和可计算性。因此,郁彬教授成为了在数据挖掘领域顶级会议中第一位女性的大会主题讲者。


华人学者们还组织了包括城市计算(Urban Computing)、大规模网络表达学习(Learning Representations of Large Scale Networks)在内的7个专题讲座。KDD 2017的首日下午,大会特别为SIGKDD China举行了中国数据挖掘会议(Data Science @China),吸引了众多听众参与。会议在KDD China秘书长、微软亚洲研究院资深研究员郑宇博士的主持下进行。香港科技大学的杨强教授,罗格斯大学的熊辉教授,微软亚洲研究院的郑宇博士,今日头条AI实验室的李磊博士,滴滴出行研究院的副院长叶杰平博士,西蒙弗雷泽大学的裴健教授,以及清华大学的唐杰和崔鹏教授分别分享了各自最新的研究成果。


SIGKDD China主要委员以及KDD两任主席刘兵、裴健和韩家炜教授合影


中国企业在KDD的参与也越来越积极。据主办方介绍,KDD 2017总共的赞助费用超过了54万美元,仅次于去年在旧金山举行的KDD 2016。仔细看一看今年的赞助商列表,就会发现中国公司已经出现在了显著的位置。



持续发酵的微软影响力


作为人工智能和数据挖掘领域的先驱者,微软在本次大会上一如既往地展示了非常多的研究成果。来自微软的研究员们分别组织了五场不同主题的教程演讲(Tutorials)以及一场实践教程(Hands-on Tutorial),内容涵盖了利用对照实验(A/B testing)加速软件创新,群体感知(crowd sourcing),大规模层次数据分类技术,社交网络数据分析,城市计算,以及利用R语言的可扩展的数据科学技术等核心技术领域。其中,微软亚洲研究院资深研究员郑宇博士组织了城市计算的教程演讲。


郑宇博士在城市计算教程演讲环节


今年,微软参与发表了9篇KDD的论文,涉及领域丰富全面。在来自微软雷德蒙研究院的工作“A Century of Science: Globalization of Scientific Collaborations, Citations and Innovations” 中(论文链接:http://www.kdd.org/kdd2017/papers/view/a-century-of-science-globalization-of-scientific-collaborations-citations-a),研究人员收集了从1900到2015年间所发表的8900万篇已经数字化的学术论文,进而学习了过去一个世纪中科技进步的演化过程。研究员们发现科学的进步已经从个人的单独工作越来越多地向共同合作的形式所转变,并且能够很明显的观察到,在作者合作和研究工作的互相引用中,越来越多的国际合作已经展现。但在上世纪初超过90%的创新工作都在英国和美国,而目前这样的比例已经下降到了50%左右。微软研究院的研究人员希望通过分析这些数据可以为业界提供一些启示,让现有的国际科技合作和资助计划变得更有效率。

另外一篇来自微软的论文“ReasoNet: Learning to Stop Reading in Machine Comprehension”(论文链接http://www.kdd.org/kdd2017/papers/view/reasonet-learning-to-stop-reading-in-machine-comprehension)则提出了一个利用新的数据网络结构来教计算机阅读和理解文章,并根据文章的内容回答相应的问题。ReasoNet引入了一种结束状态来缓解推理深度的限制,并且利用增强学习技术,当它能从已有的信息中产生正确的回答时,ReasoNets可以动态地决定是否需要继续理解中间结果或者提前结束阅读。这项技术在许多机器理解的数据库(如 CNN, Daily Mail Stanford SQuAD和 structured Graph Reachability)验证中,都得到了非常好的结果。


我们微软亚洲研究院城市计算组在KDD 2017发表了一篇题目为“Planning Bike Lanes based on Sharing Bikes’ Trajectories” 的论文。该论文的基本思想是利用大量共享单车(摩拜)的轨迹数据,结合政府在市政建设上的限制和要求(如,预算、服务人群以及施工和管理的便捷性),利用大数据和人工智能技术提出自行车道规划的建议。这项技术未来将能够实现公司、政府和人民群众三赢的局面,把技术更好地融入人们的现实生活中。具体细节请点击阅读“大数据freestyle: 共享单车轨迹数据助力城市合理规划自行车道”。



除此之外,其他微软在KDD 2017所发表的论文如下:


  • Discrete Content-aware Matrix Factorization(论文链接:http://www.kdd.org/kdd2017/papers/view/discrete-content-aware-matrix-factorization)
  • Mixture Factorized Ornstein-Uhlenbeck Processes for Time-Series Forecasting(论文链接:http://www.kdd.org/kdd2017/papers/view/mixture-factorized-ornstein-uhlenbeck-processes-for-time-series-forecasting)
  • Deep Embedding Forest: Forest-based Serving with Deep Embedding Features(论文链接:http://www.kdd.org/kdd2017/papers/view/deep-embedding-forest-forest-based-serving-with-deep-embedding-features)
  • A Dirty Dozen: Twelve Common Metric Interpretation Pitfalls in Online Controlled Experiments(论文链接:http://www.kdd.org/kdd2017/papers/view/a-dirty-dozen-twelve-common-metric-interpretation-pitfalls-in-online-contro)
  • Deep Probe: Information Directed Sequence Understanding and Chatbot Design via Recurrent Neural Network(论文链接:http://www.kdd.org/kdd2017/papers/view/deepprobe-information-directed-sequence-understanding-and-chatbot-design-vi)
  • Discovering Concepts Using Large Table Corpus(论文链接:http://www.kdd.org/kdd2017/papers/view/discovering-concepts-using-large-table-corpus)

参会之后,我切身体会到了数据挖掘和机器学习领域目前在学术界和工业界的火热状态。每次会议间隙的茶歇,都能看到各路学者在忘我的讨论问题。就连哈利法克斯(Halifax)这个小城里的餐馆服务员都知道这几天正在举行的计算机会议具有非常大的影响力。


随着大数据和人工智能技术在中国的快速发展,可以期待未来的KDD将会更加精彩,并且我们坚信将有更多的华人身影参与其中。我们微软亚洲研究院城市计算组也将继续利用大数据和人工智能技术,为人们的生活提供便利,解决更多城市中的实际问题。


城市计算组


城市计算是一个交叉学科,是计算机科学以城市为背景,跟城市规划、交通、能源、环境、社会学和经济等学科融合的新兴领域。更具体的说,城市计算是一个通过不断获取、整合和分析城市中多种异构大数据来解决城市所面临的挑战的过程。城市计算将无处不在的感知技术、高效的数据管理和分析算法,以及新颖的可视化技术相结合,致力于提高人们的生活品质、保护环境和促进城市运转效率。城市计算帮助我们理解各种城市现象的本质,甚至预测城市的未来。



原文链接:http://mp.weixin.qq.com/s/q7Jjzw06IxbfFo-YoIfV1A


微软研究院AI头条
微软研究院AI头条

专注科研19年,盛产黑科技

入门
暂无评论
暂无评论~