港中文林达华教授:迈出第一步,《人工智能基础(高中版)》是怎样炼成的

4 月底,由华东师范大学慕课中心、商汤科技、上海知名高中优秀教师共同编著的全球第一本人工智能教材 “《人工智能基础(高中版)》” 正式发布。本文是这部教材的亲历者,编委会执行主编、商汤科技联合创始人、香港中文大学 - 商汤科技联合实验室主任林达华教授讲述的编著历程。


商汤科技联合创始人

香港中文大学 - 商汤科技联合实验室主任

林达华教授

2018 年 4 月 28 日,华东师范大学逸夫楼。

礼堂里座⽆虚席,⼤家翘首以待。随着舞台上的 “书” 被翻开,全球首部专为中学教学编写的⼈工智能教科书终于面世了。对于参与编写的每⼀个⼈来说,这是⼀个值得向至亲分享的时刻。

这部教科书的影响与意义也许需要更长的时间才能看清楚。但是,⼀群年轻⼈在⼀起去完成⼀件前⼈没有做过的事情,这样的经历肯定是值得铭记的。本文记述了这段充满挑战的历程,以及教材编写中的⼏次关键选择。

   “这是一个开创历史的机会”

2017 年 9 月,在⼀次研究会议后,我收到海龙(尚海龙,商汤科技香港公司总经理兼教育事业部总经理)的电话,他提到商务印书馆希望和商汤科技合作编写⼀部中学版⼈工智能教材。不久后,汤老师(汤晓鸥商汤科技创始人,香港中文大学信息工程系教授)也找到我商量编写教材的事情。这让我感到非常意外,也非常纠结。⼀⽅面,教科书的编写对我⽽⾔是⼀项全新的⼯作,我没有任何经验;另⼀⽅面,实验室的各项研究正在进⼊关键阶段,哪有余⼒开展这样⼀个⼤项目呢。可是,汤老师的⼀句话给了我很⼤的影响:

  • 人工智能进中学教材,这是历史上第⼀次。
  • 这是⼀个开创历史的机会。”

确实,这样的机会是难以抗拒的。⼀番天人交战后,跃跃欲试的雄⼼战胜了对困难的顾虑,我接下了这个任务。

   艰难的开始

2017 年 10 月 10 日,第⼀次教材工作会议在上海举⾏。商务印书馆,华东师范大学慕课中⼼,以及商汤科技的同事在华东师⼤商讨教材的编写计划。主持会议的是华东师范大学慕课中心主任陈玉琨教授。陈教授已经在基础教育耕耘数十载,桃李满天下,在教育界威望极⾼。我刚到会议室,陈教授主动起来到门口欢迎,这份尊重和礼遇让我颇为感动。

可是,接下来的会议并不顺利。

在会前,我准备了⼀份关于教材的大纲——那基本是⼤学机器学习教材的简化版。这份以知识为导向的大纲列出了我认为需要讲授的基础知识,包括分类,回归,无监督学习,和增强学习等⽅向。

这份大纲在会上受到了上海的中学老师们礼貌却又强烈的批评。⼤家认为,这些知识点过于艰深,根据这样的大纲编写的教材是无法在中学课堂讲授的。有部分老师提出,教材可以以科普为主,主要介绍基本概念和展示应用,不涉及背后的数学和算法。对于这种方式,我不能认同——这和参观展览馆有什么区别呢。

这次会议上的争论让我认识到人工智能研究和基础教育之间横亘着⼀道鸿沟。要把人工智能的知识和理念传递给中学的同学们,需要在鸿沟上架设⼀座桥梁。这是⼀个巨大的挑战,也是我们工作的意义所在。

会议开了整整⼀天,从早上 9 点到下午 5 点。经过反复深⼊的沟通,双方在教材设计原则上达成了基本共识:

  • 中学人工智能教学的目的不是把所有同学培养成人工智能专家,而是传递人工智能的基本思想和理念,培养动手能力和创造力,使得同学们在以后进入各行各业能自觉运用人工智能解决问题。

  • 兴趣与知识并重。通过生活中的应用发展同学们对人工智能的兴趣,并由此引入适合中学生接受的基础知识和基本算法。

  • 以实践为导向。在每个章节,以具体的应用为主线,把相关知识贯穿起来。为教材提供配套的实验平台和任务包。

这次会议的另⼀个重要成果是把团队建立起来,并确立了在编写过程中的合作方式。具体来说,就是商汤科技和香港中文大学的团队负责教材专业内容的设计和撰写,由上海六所重点中学老师组成的团队负责从教学的角度提出反馈并对教学语⾔的运用提供指导意见。最后双方合作统稿。

   从 0 到 1

从上海回来后,我开始拟定教材的大纲。大纲的设计思路源于海龙提出的八个字:“耳聪目明,心灵手巧”。最初的大纲把教材分为七个章节:

一. 总论:人工智能概述

二. 经典图像分类(目明)

三. 深度学习(目明)

四. 音乐风格分类(耳聪)

五. 相册聚类

六. 自然语⾔理解(心灵)

七. 生成模型(手巧)

机器学习的角度,这个大纲涵盖了三种重要的学习方式:监督学习(第二 - 四章),非监督学习(第五 - 六章),和生成模型(第七章)。

在实验室其他教授的支持下,我在实验室内部组建了编写团队。第⼀章总论由我撰写,其余六章各由⼀位实验室的同学负责。他们根据我发出的每章细则来进行具体的内容编写。汤老师指出,这部教材的编写是开创历史的工作。因此,我们在教材编写之初就订立了⼀条铁律:

  • 坚持原创。
  • 每⼀段话都必须自⼰撰写,
  • 每⼀幅教学示意图都必须自⼰设计。

从 2017 年 10 月中开始,同学们就开始了各自的编写工作,在这个过程中,我们和上海的老师们保持了密切的沟通。2018 年 1 月 15 日,教材的初稿完成。

   波澜再起

2018 年 1 月 20 号,由商汤团队和上海老师参与的全体会议再次举行,集体对初稿进行审议。

初稿的完成使大家备受鼓舞。可是,随着会议的进⾏,我们发现有点高兴得太早了。在这次会议上,波澜再起。双⽅争论的焦点落在了第⼆章(经典图像分类)和第三章(深度学习)。这两章是全书的知识基础,它们的成败决定了全书的成败。虽然负责这两章的编委付出了很大的努力以尽可能通俗的方式讲授,可是效果还是不能令人满意。

  • 什么是数据?什么是特征?
  • 什么是权重?什么是卷积

参与审稿的老师们在会议上直⾔指出,初稿中对这些最基础的概念没有讲清楚。编委们在日常的研究工作中对这些非常基本的名词可以说是习以为常,可是真要向零基础的同学讲清楚它们的涵义却并不容易。两个多月辛苦得到的是尖锐的批评。今天回想起来,我依旧能感受到编委同学在当时的苦闷和委屈。可是,⼀部高质量的教科书,不经锤炼又如何能出来呢。

在会议上,老师们还指出,第⼆章⼀下子引入了太多基础概念,担心同学们难以接受,希望把众多概念在全书中循序渐进地展开,让学习曲线变得平缓⼀点。要实现这⼀点意味着第⼆章和第三章整个需要推倒重来,重新设计。

会议结束后,我让相关的编委组成攻关小组重新设计编写这两个基础章节,并且把我的⼀个博士后研究员王若晖调进来支援这项任务。在新的设计中,我们调整了章节内容:在第⼆章只讲模式识别的⼊门知识和基本的分类器,使用的应用例子改用可以直观说明的简单属性特征,并把图像处理的知识移到第三章,从而降低了第⼆章的概念密集度。在第三章中把图像滤波的知识和卷积特征提取进行有机融合,使得对卷积的介绍获得更具体的应用背景支撑。此外,大家还⼀起对所有的基本概念以及它们的衔接关系进行梳理,并且在教材中加入大量具体的例子和图表,让读者可以更形象地理解它们。这些工作取得了明显的成效,后来参与审稿的同事和老师都表示新修订的章节更容易读懂了。

第三章的修订过程中,编委们对于如何处理生物神经网络和人工神经网络的关系也进行了深入讨论。传统的神经网络大学教材往往是从生物神经网络说起,然后引入人工神经网络。我们认为这种讲授方式很容易让读者产生 “仿生学” 的联想,这显然是不科学的,也不符合现代主流的设计和研究思路。讨论后,我们决定依照当代研究领域的主流观点,主要从特征学习的角度讲述卷积神经网络的意义,淡化它和生物神经网络的联系,以避免读者形成不恰当的理解。

   争分夺秒,二度大改

二月初,对初稿的修订完成后,我把第⼆稿发给汤老师重新审阅。汤老师看过后,认为仍然有很大的改进空间,并提出了三个重要的意见:

  • 这⼀稿在图文并茂上仍然不足,需要提高插图的数量和质量。

  • 加入视频理解和 AlphaGo 相关的章节,这代表人工智能发展的新高度。

  • 科普部分需要加强,不仅要讲好基础知识,对于人工智能的最新发展也要进行概要性的介绍,培养同学们对人工智能更大的兴趣。

实施这些意见对于提高整个教材的水平是十分有帮助的。可是,这时候离原定四月份的发布时间只剩下两个月了,还来得及吗?为了做出决定,我给乔宇,海龙与戴娟等几位兄弟实验室和相关部分的负责同事都打了电话,寻求他们的意见,得到了坚决的支持。我们决定,拿出商汤使命必达的决心,把我们的教材打造成⼀部精品。于是,公司和各联合实验室更广泛地动员起来:各联合实验室再调集五位博士加入编委团队,商汤设计部调来了三位设计师加班加点为教材制作插图,研发,工程,和商务团队的多位同事参与审阅和提出修订意见。参与教材相关工作的同事和同学迅速增加到接近三十⼈。

2018 年 2 月 25 号,全体会议又⼀次在上海举行。除了原编委团队外,多位新加入的商汤同事以及华东师大出版社的同仁也出席了会议。会议进行了⼀天,逐个章节进行审议。这次会议进展比较顺利,第三稿终于得到了老师们和出版社的认可。会议决定,抓紧时间根据会上提出的具体建议进行最后修订,在 3 月 5 日定稿交付出版。

   付梓前后

虽然 2-25 会议决定基于第三稿进行最后定稿,但是编委们都明白,这只是确定了结构和内容,但是这⼀稿在图文细节上还存在很多问题。行百里者半九十,我们必须在细节上精益求精,才能打造出⼀部让我们引以为豪的教科书。

从 2 月 26 号到 3 月 5 号的八天时间里,整个编委团队处于冲刺状态,为教材的定稿日夜不息地进行最后的努⼒。每⼀个章节都会有三位编委进行交叉检验,再交到我手上审阅。我们仔细检查了每个知识点,每个公式,每个图表,对不满意的表述反复讨论修改,对不满意的图表重新进行制作。

3 月 6 日凌晨 3 点,我们把第四稿作为定稿发给了出版社。

定稿交付后,我对比了第三稿和第四稿,虽然内容结构没有重大变化,但是很多段落都经过了重写,⼤部分图表都被重新绘制,整部教材再⼀次脱胎换骨。定稿交付了,可是编委们似乎并没有特别⾼兴。大家觉得这个交付的稿子是有遗憾的——很多地方其实可以做得更好,但是来不及在截止日期前完成了。

我们不甘心留下遗憾。

在和出版社的交流中,我们发现还有⼀次修订的机会。按照⼀般的出版流程,出版社在排版完成后,会把排好版的书稿发给我们,并给我们三天时间校验,在书稿上标示出需要修正的地方。于是,定稿交付后,我们继续进行未竟的修订工作,并把后补的修订⼀处处记录下来。最后修订完成时,我们在第四稿上又进行了⼀千多处局部修改。

3 月下旬,出版社给我们发来了排好版的书稿,我们在三天内把这⼀千多处修改逐⼀标示在书稿上。收到我们的反馈后,出版社震惊了。他们说,排版要重做了……

   发布

2018 年 4 月 25 日,在商汤人工智能峰会上,同事晓菊把⼀本出版社印好的教材交给我。我翻着书,眼前浮现的都是这大半年来艰辛的编写历程,书中的内容却没有仔细看进去了。海龙说,这是 “十月怀胎,⼀朝分娩” 的感觉。

4 月 28 日,华东师范大学逸夫楼,在多位领导,上百位重点中学校长,以及各方媒体的共同见证下,全球首部中学版人工智能教材发布。

  • 全书共有九章:

第一章. 人工智能:新时代的开启

第二章. 牛刀小试:察异辨花

第三章. 别具慧眼:识图认物

第四章. 耳听八方:析音赏乐

第五章. 冰雪聪明:看懂视频

第六章. 无师自通:分门别类

第七章. 识文断字:理解文本

第八章. 神来之笔:创作图画

第九章. 运筹帷幄:围棋高手

产业
相关数据
人工智能技术
Artificial Intelligence

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经网络技术
Neural Network

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

阿尔法围棋技术
AlphaGo

阿尔法围棋是于2014年开始由英国伦敦Google DeepMind公司开发的人工智能围棋程序。AlphaGo是第一个打败人类职业棋手的计算机程序,也是第一个打败围棋世界冠军的计算机程序,可以说是历史上最强的棋手。 技术上来说,AlphaGo的算法结合了机器学习(machine learning)和树搜索(tree search)技术,并使用了大量的人类、电脑的对弈来进行训练。AlphaGo使用蒙特卡洛树搜索(MCTS:Monte-Carlo Tree Search),以价值网络(value network)和策略网络(policy network)为指导,其中价值网络用于预测游戏的胜利者,策略网络用于选择下一步行动。价值网络和策略网络都是使用深度神经网络技术实现的,神经网络的输入是经过预处理的围棋面板的描述(description of Go board)。

生成模型技术
Generative Model

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

图像处理技术
Image processing

图像处理是指对图像进行分析、加工、和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

学习曲线技术
learning curve

在机器学习领域,学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

机器学习技术
Machine Learning

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

监督学习技术
Supervised learning

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

权重技术
Weight

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

深度学习技术
Deep learning

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法。观测值(例如一幅图像)可以使用多种方式来表示,如每个像素强度值的向量,或者更抽象地表示成一系列边、特定形状的区域等。而使用某些特定的表示方法更容易从实例中学习任务(例如,人脸识别或面部表情识别)。 近年来监督式深度学习方法(以反馈算法训练CNN、LSTM等)获得了空前的成功,而基于半监督或非监督式的方法(如DBM、DBN、stacked autoencoder)虽然在深度学习兴起阶段起到了重要的启蒙作用,但仍处在研究阶段并已获得不错的进展。在未来,非监督式学习将是深度学习的重要研究方向,因为人和动物的学习大多是非监督式的,我们通过观察来发现世界的构造,而不是被提前告知所有物体的名字。 至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

商汤科技机构
SenseTime

商汤科技成立于2014年,专注于计算机视觉和深度学习的原创技术,是中国领先的人工智能头部公司,估值超过20亿美金。以“坚持原创,让AI引领人类进步”为使命,商汤科技建立了国内顶级的自主研发的深度学习超算中心,并成为中国一流的人工智能算法供应商。商汤科技不仅在技术实力上领跑行业,商业营收亦领先同行业,在多个垂直领域的市场占有率居首位。目前,商汤科技已与国内外多个行业的400多家领军企业建立合作,包括Qualcomm、英伟达、本田、中国移动、银联、万达、苏宁、海航、中央网信办、华为、小米、OPPO、vivo、微博、科大讯飞等知名企业及政府机构,涵盖安防、金融、智能手机、移动互联网、汽车、智慧零售、机器人等诸多行业,为其提供基于人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等技术的完整解决方案。2017年7月,商汤科技宣布完成4.1亿美元B轮融资,创下当时全球人工智能领域单轮融资额纪录,成为世界级的人工智能独角兽企业。新一轮融资后,商汤科技加大力度开展包括自动驾驶、医疗影像以及深度学习芯片等领域的研发工作。商汤科技现已在香港、北京、深圳、上海、成都、杭州、日本京都和东京成立分部,汇集世界各地顶尖人才,合力打造一家世界一流的原创人工智能技术公司。中国“智”造,“慧”及全球。

涉及领域
模式识别技术
Pattern Recognition

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

汤晓鸥人物
Xiaoou Tang

涉及领域
卷积技术
Convolution

返回顶部