中国人工智能学会作者

CCAI2018 | 如无必要 勿增实体——机器学习方法、应用与展望

站在2018年,图像分类准确率在95%以上的模型,已经遍地都是。回想2012年,被称之为“深度学习教父”的Hinton带着学生们以ImageNet16.4%的错误率震惊计算机视觉研究界,似乎已经是远古时期的历史。

通常认为机器学习是过去几十年发展出来的一个新学科,但王立威教授看来,其实机器学习一直伴随着人类文明的发展。从人类真正有文明、有科学那天,就有机器学习。

王立威:北京大学信息科学技术学院教授。主要从事机器学习理论研究。高水平论文100余篇。2011年入选在机器学习国际权威期刊会议发表由人工智能国际期刊IEEE Intelligence Systems评选的AI’s 10 to Watch,是该奖项自设立以来首位获此荣誉的亚洲学者。2012年获得首届国家自然科学基金优秀青年基金。担任国际机器学习旗舰会议NIPS领域主席。

从奥卡姆剃刀理论到机器学习

早在13世纪,威廉姆·奥卡姆就提出“奥卡姆剃刀理论”,这个原理称为“如无必要,勿增实体”,即“简单有效原理”。对这个理论的解释,还有一位更著名的科学家和一段更著名的话——“Everything should be made as simple as possible but no simpler”,这句话出自爱因斯坦,意思是做理论的时候一定要尽可能的简单,但又不能过于简单。对应物理模型,一定要找到一些模型,允许存在一定的误差,但又不能过于简单,否则和观测的数据误差太大也不行,“奥卡姆剃刀理论”就是机器学习或者整个人类在获取科学知识的历程中,最核心、最本质的思想。

机器学习理论究竟有什么意义?只为了证明界(bound),为了说明算法在实际应用的错误率能小于多少,还是说它在传达更高层的信息?王教授的观点是,机器学习理论是后者,绝对不是为了证明一个算法的边界如何;机器学习理论的目的,在于提供对机器学习问题的洞察和理解。 

而“泛化”则是学习理论最重要的概念之一。学习目的是希望学好一个模型,并且让这个模型在未来的场景数据上有非常高的准确度。泛化的错误,就是指一个模型在未来的应用场景下的错误率,即泛化误差。通常训练模型时,可以拿到很多训练数据,学一个分类器,在训练数据上得到一个错误率。而这个训练的错误率和泛化误差实际上是有本质区别的。这个区别正是机器学习理论要研究的内容。

机器学习应用任重道远

2012 年以来,不论是深度网络层数的不断拓展,还是系统在数据集上的优异表现,都让学术界对机器学习有了新的认识。彼时的王立威教授,已经在机器学习领域做了大量的研究,并凭借突出的表现在2011年成为首位入选 AI's 10 to Watch 的亚洲学者。

但王立威教授认为,这一切只是个开始。“机器学习在近年来取得了显著的突破与发展,除了理论的研究外,更重要的是,学者们需要看清技术对生活产生的重大影响。”王立威教授身处人工智能浪潮的前沿,自然也希望能在机器学习的应用领域有所作为。他认为有三个领域会与深度学习进行紧密的结合,并希望能够选择其中一个方面来进行深入研究:一个是无人驾驶;一个是金融领域;再一个则是医疗领域。王立威教授对机器学习在医学影像领域的应用也颇有研究。一方面,医学影像属于静态图像识别,相对于视频的处理技术要更加成熟;另一方面,依托北京大学的一系列附属医院,不论是从数据的获取或是系统的测试落地上,王立威教授所在的北京大学研究团队都有着得天独厚的优势。

王教授表示,如果开发者要执行的任务处于非常封闭的环境,和人的常识没有什么关系,这样的任务非常适合机器来做,但是如果这项任务和常识挂钩,例如对自然语言的理解,对于机器而言难度非常大。“医学影像相对而言是具有一定封闭性的问题。”

当然,不是说医学影像具有一定的封闭性,AI就能够在医学领域畅行无阻。王立威教授列举了两个AI对医学影像产生重大影像的案例——斯坦福团队在皮肤癌检测以及Google的DeepMind的糖网筛查。

王教授的观点是:

第一,医学影像处理病种的数量非常庞大,上述两个团队的例子解决的都是单病种问题。医学影像上一共可以分为两千多个的病种。“解决一个单病种已经不是简单的事情,斯坦福的团队已经和顶级的医学专家研究数年才得到目前的成果,要囊括两千多个病种更是难上加难。此外,病种与病种之间的差异度也很大,所以,AI 医学影像需要顶级医学专家和顶级机器学习学者通力合作才有可能成功。”

第二,成像设备的差异会产生多种类型的图像。CT、MRI、X光、超声、内窥镜、病理切片这些图像缺乏一定的标准。“现在我们只是在一些病种上进行单点突破,整个医学影像仍任重道远。”

毫无疑问,机器学习已经成为人工智能的主流研究方向之一。本次的CCAI2018大会,特别邀请北京大学信息科学技术学院教授王立威给我们呈现一场题为《机器学习简介——方法、应用与展望》的讲座。届时王教授将对机器学习领域的主要技术方法,包括深度学习、概率图模型、boosting、在线学习等进行简要介绍,同时分析这些方法的优势与局限。在本次大会的专题讲座中,王立威教授还将对目前人工智能领域最受关注的应用,包括人工智能医疗、金融、无人驾驶等,从机器学习技术的角度进行分析。王教授还将展望机器学习未来技术的发展方向与趋势,以及对产业应用可能带来的影响。让我们共同期待,共同迎接这场机器学习盛宴的到来吧!

多大会详情、参会细节,请关注大会官网:http://ccai2018.caai.cn/

产业活动