LeeMeng作者NewBeeNLP来源谭佳瑶校对黄继彦 编辑

我从吴恩达AI For Everyone中学到的10个重要AI观

本文作者与你分享吴恩达课中最值得记住的10个AI观,希望能让你学到些东西。

写在前面

[ 导读 ]在这个人机共存的年代,每个人都应该去尝试了解并运用人工智慧这个超能力,思考自己未来在这个变化快速的世界的定位。

曾经领导Google Brain的吴恩达教授公开的Coursera课程:AI For Everyone[1]非常有意义。这堂课不谈技术术语,专注在与非技术人士以及企业经理人说明。

  • 何谓AI;
  • 如何建立AI项目;
  • 如何在企业内部建立AI基础;
  • AI与社会的关系。

课程内容精要,总结了不少他多年在Google Brain、百度里领导AI团队所累积的宝贵经验。这堂课也提到了不少AI Transformation Playbook[2] 里头的内容。

虽然课程中很多时候是以CEO或是企业管理者的角度说明AI概念,但我认为每个人都可以用个人角度,从本课学到不少有用的建议以及思考框架。有了这些概念,可以帮助我们在这个变化快速的AI潮流中掌握好自己手上的船舵并顺利航行。

本文将列举出我认为本课中最值得记住的10个AI观,希望能让你学到些东西。

这篇文章中的不少概念是我自己的心得总结,而你在上完课后肯定会有其他重要见解。事实上,我会推荐你在阅读本文后就找时间实际去上这堂课,或是通过其他方式进一步了解AI。

30秒AI大局观

以下就是10 个我认为AI For Everyone 这堂课传达的重要观念懒人包。如果你一秒钟几十万上下,可以只看这节就好:

1. 讲到AI,我们通常是指狭义AI而非通用AI。

2. 多数AI应用是让机器学会一个对应关系。

3. 大数据、神经网络及运算能力是AI成功关键。

4. 只需花费你1秒的任务,大都可由AI自动化。

5. 对AI的态度不应过度乐观,但也不必太悲观。

6. AI偏见难解,但或许比消除人类偏见简单。

7. 拥抱AI的最好方法是将其与领域专业结合。

8. 机器学习和资料科学的产出分别是系统和洞见。

9. AI时代,你得思考未来自己想要扮演的角色。

10. 终身学习在这个年代前所未有的重要。

是的,既然是AI For Everyone,自然没有什么特别深入的内容。但就像吴恩达教授在课程里头所说的,我相信这些基本的核心思想可以引导我们在这个AI时代更有方向且顺利地前进。

本文接着会搭配课程PPT,针对上面提到的一些概念做点简单的补充说明,供你参考。

AI For Everyone

1. 讲到AI,我们通常是指狭义AI而非通用AI。

现在媒体整天报导的人工智能(Artificial Intelligence, AI)应用如:

  • 智慧音响;
  • 自动驾驶;
  • 人脸辨识;
  • 图像分类;
  • 推荐系统;
  • 机器翻译

背后皆是狭义的AI(Artificial Narrow Intelligence, ANI)。

尽管很多AI应用的表现甚至已经比人类还优秀,这些AI基本上都专注在完成“特定”的任务;这跟科幻电影如魔鬼终结者里头,能跟人类以一样的方式思考并做“任何”事情的通用AI(Artificial General Intelligence, AGI)是有很大差异的。

尽管开发出AGI是很多研究者的终极梦想,但事实上现行的科技离实现AGI还有好一段距离。

2. 多数AI应用是让机器学会一个对应关系。

大部分的机器学习以及AI应用本质上都是让电脑学会一个映射函数(Mapping Function),帮我们将输入的数据A对应到理想的输出B:

  • 邮件分类:电子邮件->是否为垃圾邮件
  • 语音辨识:音讯档案->文本
  • 机器翻译:英文文本->中文文本

要实现这种AI应用,最常被使用的方法是监督式学习(Supervised Learning):给予机器大量的成对数据,告诉它什么样的A要对应到什么样的B,并让机器最后自己学会如何将任意的A转换成理想的B,达到自动化的目的。

3. 大数据、神经网络及运算能力是AI成功关键。

要实现能帮助人类做复杂判断的AI技术有很多种,但近年真正让AI大红大紫的是深度学习(Deep Learning)以及人工神经网络(Artificial Neural Network)。

值得一提的是,你或许常听到“神经网络跟人脑运作方式相同”的这种说法,但事实上如果你问相关人士对这种意见的看法的话,得到的答案常常是“两者天差地远”

尽管神经网络的运作方式跟我们神奇的大脑不完全一致,搭配大量数据以及前面提到的监督式学习,越大的神经网络通常可以在特定任务有越好的表现。

虽然这样的现象令人振奋,但别忘记:

  • 大型神经网络的运作;
  • 大量数据的处理。

这两件事情都意味着需要更大量的电脑运算能力。而很多时候一般人是没有这样的运算资源的。

值得庆幸的是,很多以深度学习为基础的AI常常有个很好的特性:通过迁移学习(Transfer Learning),我们能将事先已经用大量计算资源做训练,并在任务A表现优异的AI做些简单修改,就能让修改过后的AI'能在相似的任务B也表现不错。

这时候就算你只有少量数据以及不多的计算资源,也能利用AI完成以往难以想像的任务。

4. 只需花费你1秒的任务,(未来)大都可由AI自动化。

这项概念是吴恩达教授在课程里所提到的“一秒原则”,可以让你用来判断一个任务是否能用AI做自动化的准则。

通过监督式学习以及大量成对A&B数据,我们可以让很多以往被认为非常复杂,但人脑仅需1秒钟就能解决的任务通过AI来自动化,让我们的生活更加轻松。

当然,这个简化的原则并不是放诸四海皆准,但可以作为一个不错的参考基准

5. 对AI的态度不应过度乐观,但也不必太悲观。

尽管我们已经清楚现代AI的威力,仍需注意AI并不是万能药,无法(完美地)解决或自动化所有人类的问题。

比方说有研究尝试把自然语言转成SQL,但短期内一个数据科学家自己写SQL查询数据可能还是比较有效率。尽管AI不能(完美地)做到任何事情,我们也不该对AI失望,断定下一个AI冬天必定会到来。

现在可以肯定的是AI已经,而且也会继续改变我们未来以及下一代的生活形态。

最重要的是理性地理解AI能做到什么,在能活用的时候善加利用它,同时不抱着“AI能解决所有问题”的不切实际幻想。

6. AI偏见难解,但或许比消除人类偏见简单。

在利用监督式学习的方式训练AI的时候,我们常常会使用现实世界的数据让机器学习。

好消息是因为现在数位化以及网际网络的发达,我们有非常多数据可以交给AI学习;坏消息是这些数据时常反映了人类数十年甚至几个世纪的偏见。

用这些数据训练出来的AI系统就像是面照妖镜,也会不可避免地学会这些偏见(Bias)。

知名的例子有:

  • 以白人照片训练出来的人脸辨识系统在辨识深色肤色的人种时表现很差;
  • 自动化雇用的AI系统对女性存有偏见;
  • 银行的自动信用评比AI系统对某些族群产生偏见。

以下则是另一个课堂中提出的例子:

上例或许称不上歧视,但很明显是偏见,一种长久存在于人类社会的性别偏见。

因为很多时候这些AI系统是学习一种统计关系,因此在此例中,AI只是忠诚地呈现我们社会的用字习惯罢了。

要消除AI的这些偏见并不容易,但仔细想想,这可能比消除人们脑中数十年的偏见要来的简单,而且振奋人心。这件事情当然不简单,但却非常值得一试。

当然,你可以选择不思考这些AI伦理、偏见问题,相信建立AI系统的这些工程师们立意良善以及够细心,能帮我们将AI系统里的偏见移除,并让其做出最合适的判断。

尽管如此,意识到再厉害的AI系统内部也可能存在如同人类的偏见,进而导致各种不公平的社会问题这件事情也是很有帮助的。

7. 拥抱AI的最好方法是将其与领域专业结合。

想要学习AI,不需要打掉重练。虽然现在AI相关领域十分热门,究其根本也就只是一种工具/技术。而且AI技术接下来会越来越平民化,上手的门槛会越来越低。

因此比起现在转行当AI工程师,你要先做的应该是想办法利用自己工作累积的领域知识(Domain Knowledge)以及洞见(Insight),找出能应用AI改善的地方,进而创造出专属于你或企业的竞争优势。

8. 机器学习和数据科学的产出分别是系统和洞见。

机器学习(Machine Learning, ML)以及数据科学(Data Science, DS)这两个词汇常常结伴出现,且依照不同企业其定义都有所不同。因此,不在这块领域里的人常常不知道两者的差异。

一般来说,在企业内的ML项目大都分为3个阶段:

  • 收集数据;
  • 训练模型;
  • 部署模型。

而DS项目的步骤则为:

  • 收集数据;
  • 分析数据;
  • 建议行动/假说。

两者皆需原始数据作为输入,且皆有机会使用AI/ ML技术来解决、分析问题,但最终的产出形式时常不同。

总结来说,ML项目较注重在软件工程方面,且最终希望产出一个以AI为基础的线上系统;DS项目的结果则可能是一份帮助经营者做重大投资决策的PPT报告。

9. AI时代,你得思考未来自己想要扮演的角色。

AI目前正是显学,不少人决定进入这块领域,而现在跟AI相关的职业就有好多种,比方说:

  • 数据科学家;
  • 机器学习工程师;
  • 机器学习研究者;
  • 软件工程师;
  • 数据工程师;
  • AI项目管理者。

等等。而且随着AI的影响力持续扩大,未来可能还会出现新的相关职业。我们在这边不会一一列出每个职业的工作内容。

10. 终身学习在这个年代前所未有重要。

如同课程中吴恩达教授所说的,你并不需要取得一个AI master才能开始进行AI项目。很多时候利用线上课程或是网络上的深度学习资源就可以开始你的第一个AI项目了。

事实上,学习AI For Everyone这堂课就是一个不错的开始。网络上也有很多优质的博客或教学文章等待你的探索。

AI领域近年发展神速,要学习AI,用上一代“读几年书,出来用一辈子”的概念是行不通的。台大电机系的李宏毅教授就曾说过:“在深度学习的领域,超过五年就是远古时代了!”

因此如果你决定踏上学习AI的这条路,就做好跟我一起终身学习的心理准备吧!

结语

看到这里,相信你已经了解AI For Everyone里头10 个最重要的概念了,恭喜!

这些概念大多是我将课程里头撷取出的核心概念,佐以自己的心得感想。希望阅读完此文的你有学到点东西,或是获得些启发。

参考资料:

[1] AI For Everyone: https://www.coursera.org/learn/ai-for-everyone

[2] AI Transformation Playbook: https://landing.ai/ai-transformation-playbook/

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

入门AI吴恩达
1
相关数据
吴恩达人物

斯坦福大学教授,人工智能著名学者,机器学习教育者。2011年,吴恩达在谷歌创建了谷歌大脑项目,以通过分布式集群计算机开发超大规模的人工神经网络。2014年5月16日,吴恩达加入百度,负责“百度大脑”计划,并担任百度公司首席科学家。2017年3月20日,吴恩达宣布从百度辞职。2017年12月,吴恩达宣布成立人工智能公司Landing.ai,并担任公司的首席执行官。2018年1月,吴恩达成立了投资机构AI Fund。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

数据科学技术

数据科学,又称资料科学,是一门利用数据学习知识的学科,其目标是通过从数据中提取出有价值的部分来生产数据产品。它结合了诸多领域中的理论和技术,包括应用数学、统计、模式识别、机器学习、数据可视化、数据仓库以及高性能计算。数据科学通过运用各种相关的数据来帮助非专业人士理解问题。

机器翻译技术

机器翻译(MT)是利用机器的力量「自动将一种自然语言(源语言)的文本翻译成另一种语言(目标语言)」。机器翻译方法通常可分成三大类:基于规则的机器翻译(RBMT)、统计机器翻译(SMT)和神经机器翻译(NMT)。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

映射技术

映射指的是具有某种特殊结构的函数,或泛指类函数思想的范畴论中的态射。 逻辑和图论中也有一些不太常规的用法。其数学定义为:两个非空集合A与B间存在着对应关系f,而且对于A中的每一个元素x,B中总有有唯一的一个元素y与它对应,就这种对应为从A到B的映射,记作f:A→B。其中,y称为元素x在映射f下的象,记作:y=f(x)。x称为y关于映射f的原象*。*集合A中所有元素的象的集合称为映射f的值域,记作f(A)。同样的,在机器学习中,映射就是输入与输出之间的对应关系。

迁移学习技术

迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,虽然大多数机器学习算法都是为了解决单个任务而设计的,但是促进迁移学习的算法的开发是机器学习社区持续关注的话题。 迁移学习对人类来说很常见,例如,我们可能会发现学习识别苹果可能有助于识别梨,或者学习弹奏电子琴可能有助于学习钢琴。

查询技术

一般来说,查询是询问的一种形式。它在不同的学科里涵义有所不同。在信息检索领域,查询指的是数据库和信息系统对信息检索的精确要求

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
推荐文章
暂无评论
暂无评论~