对比两年斯坦福AI报告:32张图表带你全盘掌握行业发展(附资料)

美国顶尖学府斯坦福大学(Stanford University)AI 100中AI Index项目旨在追踪人工智能的活动和进展,研究人工智能对人们生活的影响。AI Index通过专注于追踪和观察AI的活动和进展,并以可靠、可验证数据为基础,促进大众对AI的了解。

AI Index在2017年年末公布了团队成立以来第一份报告,又于近日发布了第二份报告,我们将通过对比两份报告的数据变化,来探究AI行业2018年的发展趋势,以及中国对比世界其它国家在AI领域发展方向的异同。

资料参考:

http://cdn.aiindex.org/2018/AI%20Index%202018%20Annual%20Report.pdf

http://cdn.aiindex.org/2017-report.pdf

AI学术研究论文数量

2017年:1996年以来学术论文和研究的数量猛增了9倍以上 

自1996年以来,每年发表的计算机科学的学术论文和研究的数量猛增了9倍以上。学术论文和研究通常能产生新的知识产权和专利。整个Scopus数据库中,含有“Artificial Intelligence”这个关键词的计算机科学领域的论文有超过200,000(200237)篇。Scopus数据库中“计算机科学”领域的论文总共有近500万(4868421)篇。

2018年:AI领域论文总量猛增

上图是相较于1996年,学术论文的年度出版率增长情况,该图比较了计算机科学(CS)领域和AI领域的论文发表率增长情况。从1996年到2017年,AI领域的论文增加了7倍(8x),CS领域的论文增加了5倍(6x)

对比总结:对比2017年报告,在2018年进一步注重细分领域。重点关注计算机领域和AI领域的论文数量,此外还补充了,各地区以及相关领域的论文发表情况。其中,中美两国的AI领域论文数量增长情况尤为瞩目。

AI风险投资

2017年:自2000年以来,在美国,风险投资者(VC)每年投入AI创业公司的投资额增加了6倍。

上图显示了VC在美国所有融资阶段对AI创业公司年度投资总额。VC每年投给初创公司的资金额,在某些关键领域起着重要作用。

2018年:在风投资金方面,从2013年到2017年,人工智能领域的风投资金增长到了原来的4.5倍,而所有的风投资金只增长到了原来的2.08倍。这些数据都是年度数据,不是逐年累积的。

对比总结:整体来看,AI领域的投资热度依然很高,2018年报告更加关注近期的投资情况。从报告上看来,最近几年的AI领域投资占比进一步提高,相较于其他行业,AI领域发展速度将会在资本的助推下进一步加快。

AI创业公司

2017年:AI创业公司增加了14倍。

自2000年以来,在美国,有资本支持的AI创业公司数量增加了14倍。这个数字包括VentureSource数据库中Crunchbase列表中的任何有VC支持的公司。

2018年:从2015年1月到2018年1月,人工智能创业公司的数量增长到了原来的2.1倍,而所有活跃的创业公司增长到了原来的1.3倍。

图表显示,初创公司的数量是逐年累积的。在很大程度上,创业公司整体的增长保持相对稳定,而AI创业公司的数量呈指数级增长。

对比总结:相较于之前,近两年的AI公司数量增长幅度愈发加快,而活跃公司的数量也越来越多。进一步反应了AI市场的火热,创业热情也在进一步提高。

AI人才需求

2017年:自2013年以来,要求有AI技能的工作岗位增长了4.5倍。

在Indeed.com平台上,需要AI技能的工作岗位所占份额的计算方法是通过职业描述中的标题和关键字来确定是否与人工智能相关。AI Index研究还计算了在Indeed.com平台上,要求人工智能技术的工作岗位份额在不同国家的增长情况。报告显示,加拿大和英国分别占美国AI招聘市场绝对规模的5%和27%。

2018年:报告统计ML是最大的技能要求。从2016年到2017年的增幅尤为明显。全球对AI人才的需求在2016年骤增。深度学习(DL)的增长速度最快——从2015年到2017年,需要DL技能的职位空缺增加了35倍。

对比总结:2016年是AI人才需求量猛增的一年,此后AI行业人才需求量一直在高速发展,人才缺口的情况可能会进一步加剧,同时深度学习领域发展最为迅速,该技能人才最为抢手。

AI领域核心技能以及热门领域

2017年:机器学习深度学习自然语言处理(NLP)是最重要的三项技能。除了创建AI应用程序,最受欢迎的技能还包括机器学习技术,Python,Java,C++,开源开发环境的经验,Spark,MATLAB和Hadoop。

2018年:开源框架GitHub标星数,TensorFlow的受欢迎程度在开发者中遥遥领先、稳步增长。二名和第三名分别是scikit-learn和BVLC/caffe。TensorFlow官方力推的keras排到了第四,另外两大热门PyTorch和MXNet分别排到了第七和第六,尤其是PyTorch,作为一个年轻的框架,自2017年初发布以来至今,GitHub标星数至少增长了4倍。

对比总结:从最近两年可以大致看出,各类AI编程框架以及编程技能的受欢迎程度。而最近呈现的两大趋势是,由大公司支持的框架越来越受欢迎,如谷歌的TensorFlow、Facebook的Pytorch,亚马逊的mxnet等,以及TensorFlow在受欢迎程度上相对其他语言表现出越来越明显的优势。

AI领域各类任务成绩

2017年:自2010年以来,图像标注的错误率从28.5%下降到2.5%以下。

此外,在视觉问答、词语解析、语音识别、定理证明等众多领域,报告也做了详细阐述。报告显示,在某些领域AI还是距离人类成绩相差甚远。以视觉问答为例,截止2017年8月,最好的AI系统准确率还不到70%,而人类水平在85%左右。

2018年:2017年是ImageNet比赛的最后一届,2018年这项比赛就不再进行。可以看出,到2015年,机器在图像分类任务上的能力已经明显超越了人眼。

ImageNet挑战赛“退休”之后,CV领域的朋友们就把重点放在了微软的COCO,挑战语义分割和实例分割。四年来,COCO数据集上图像分割挑战的精确度已经提升了0.2,2018年的成绩比2015提升了72%。在确定句子结构这种语法分析的任务上,2003年到2018年的15年间,AI的表现(F1 Score得分)提升了将近10%。

对比总结:AI各领域的任务成绩在飞速提高,在某些领域甚至已经开始反超人类。可以看到随着AI能力的进一步提升,在不久的将来,更大范围上,AI的普遍能力将超过人类。

机器人安装数量

2017年:从国际上看,机器人的进口量已经从2000年的10万台左右增长到了2015年的25万台左右。

国际数据公司(IDC)预测对机器人的消费将在五年内加快,到2021年达到2307亿美元,复合年增长率(CAGR)为22.8%。

2018年:2012年到2017年,中国机器人年安装量增长了500%,其他地区,比如韩国和欧洲,分别增长了105%和122%。在安装量较小的地区中,中国台湾比较突出,在2012-2017年增长最快。

对比总结:相较于2017年报告,2018年的报告进一步细分了国际市场。与之前的北美市场相比较而言,中国市场的机器人市场增长速度尤为瞩目,目前已遥遥领先其它国家和地区,

2018年最新补充内容部分

2018年报告进一步细分领域论文发表情况:论文发表速度更加快速

2017年,56%的论文属于机器学习和概率推理领域,而2010年这一数字为28%。对于大多数细分领域,在2014-2017年期间论文的发表速度要快于2010年-2014年。例如,神经网络领域(上图红线)论文的2010-2014年复合年增长率(CAGR)仅为3%,而该领域2014-2017年的复合年增长率为37%。

ArXiv上的AI论文:数量迅猛增长

自2010年开始,arXiv上的AI论文迅猛增长,从2010年的1073篇,到2017年发布的13325篇。其中计算机视觉领域(CV) 是自2014年起增长最快的一个领域 (上图蓝线) 。这一趋势表明AI研究者倾向于传播他们的研究,无论是经过同行的认可亦或经过了顶会的检验,这也说明该领域竞争激烈。

高校AI教授性别:以男性为主

在收集相关数据的过程中,改善师资多样性成了改团队的关注点。在所研究的学校中,他们发现平均80%的AI教授都是男性,在世界各地、各大高校都是如此。

就业性别差异:AI目前还是男人的游戏

在美国,平均而言,男性求职者占AI求职者总数的71%,因为机器学习要求的求职者数量最多,平均而言,这主要是由机器学习求职者推动的。除了机器学习深度学习和机器人技术相对于其他类别而言,性别差异更大。

政府部门对AI的关注:美国、英国和加拿大的议会记录中提及“人工智能”和“机器学习”的次数快速上升。

这三个国家的议会中,“机器学习”与“人工智能”的提及频率自2016年以来快速上升。相对于而言,“机器学习”在之前被提及的次数基本很少,主要是最近两年开始快速提升。

 2018年报告中国内容部分总结

各地区发表论文情况:2007年至2017年在中国发表的论文数量增加了150%。欧洲是AI论文出产大户,2017年Scopus上的AI论文有28%来自欧洲,25%来自中国,17%来自美国。

在领域侧重(RAI)上:中国的AI论文更侧重于工程技术和农业科学

RAI可以看出一个区域的专业倾向,通过将其与AI全球研究活动进行比较。RAI值为1时,表明这个国家在AI中的研究活动与全球一致;高于1时,意味着该国更强调重视这个领域;低于1时,意味着更少关注。从图中可以看出,中国的AI论文更侧重于工程技术和农业科学,而美国和欧洲的AI论文则倾向于关注人文科学和医学与健康科学。

政府、企业和医学界主导研究情况对比:可以看到,从2007年到2017年,中国增长了400%;而企业论文在这期间增长了73%。在美国,相对较大比例的AI论文来源于企业,美国企业的AI论文比例要远高于中国和欧洲。

FWCI是领域权重引用影响系数,可以用来衡量论文的影响力。2016年中国AI论文的被引用率比2000年高出了44%,但整体仍处于平均水平之下。而美国在这方面表现突出,美国作者AI论文的引用率要比世界平均水平高83%。欧洲则一直在平均水平线徘徊。

在AI研究者流动率上,美国、中国和欧洲这三个国家和地区中,中国低流动性(Sedentary“久坐不动”)的AI作者比例最大(76%),其次是欧洲(52%),最后是美国(37%)。调查表明,流动性高的学者发表的AI论文具有更高的引用率和影响力,也更倾向于更频繁地发布论文。

在2018-AAAI顶会上提交的论文中约有70%来自美国或中国。 中国提交的论文数量最多,有1242篇,美国次之,有934篇。但美国机构提交的论文获得了29%较高的录取率,被接受了268篇,中国被接受的论文录取率略低为21%,被录取了265篇。德语和意大利语的论文获得最高录取率(41%),但提交的篇数较少。

在非美国地区的高校AI和ML课程注册人数变化中,清华是非美国高校中增长率最高的,是第二名多伦多大学的2倍左右,而且2017年AI和ML课程注册人数是2010年的16倍。

自2012年以来全球访问ROS.org最多的五大地区,中国的增长速度位居第一。2017年,来自中国的访问次数已经相当于2012年的18倍。

ROS.org表示,来自中国的访问量增长是结构性的,而不是在中国增加市场营销和资源投入的结果。美国和欧洲的访问次数位居前两位。

AI Index 在2018年报告最后表示,人工智能无疑会继续变得更加复杂,得到越来越多的应用,但仍存在许多障碍,既有技术上的障碍,也有偏见和安全方面的障碍。同时,伴随着自动化的普及,大规模失业虽然不会很快到来,但作为一个社会,我们需要准备好迎接工作性质的转变,转向更不稳定、薪酬更低、缺乏医疗保险等安全保障的工作。

现在来说,可靠地测量AI对社会的影响也许为时过早——这个行业才刚刚起步,但我们要为这一切做好准备,了解这意味着什么,以及AI将如何影响日常生活、工作以及医疗保健、教育和执法等公共机构,这与AI研究和产品开发同等重要。只有同时投资于两者,我们才能让世界变得更好。

THU数据派
THU数据派

THU数据派"基于清华,放眼世界",以扎实的理工功底闯荡“数据江湖”。发布全球大数据资讯,定期组织线下活动,分享前沿产业动态。了解清华大数据,敬请关注姐妹号“数据派THU”。

产业报告AI Index斯坦福大学深度学习
1
相关数据
亚马逊机构

亚马逊(英语:Amazon.com Inc.,NASDAQ:AMZN)是一家总部位于美国西雅图的跨国电子商务企业,业务起始于线上书店,不久之后商品走向多元化。目前是全球最大的互联网线上零售商之一,也是美国《财富》杂志2016年评选的全球最大500家公司的排行榜中的第44名。

https://www.amazon.com/
相关技术
微软机构

微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

https://www.microsoft.com/en-us/about
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

图像分割技术

图像分割就是把图像分成若干个特定的、具有独特性质的区域并提出感兴趣目标的技术和过程。它是由图像处理到图像分析的关键步骤。现有的图像分割方法主要分以下几类:基于阈值的分割方法、基于区域的分割方法、基于边缘的分割方法以及基于特定理论的分割方法等。从数学角度来看,图像分割是将数字图像划分成互不相交的区域的过程。图像分割的过程也是一个标记过程,即把属于同一区域的像索赋予相同的编号。

权重技术

线性模型中特征的系数,或深度网络中的边。训练线性模型的目标是确定每个特征的理想权重。如果权重为 0,则相应的特征对模型来说没有任何贡献。

视觉问答技术

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

MXNet技术

MXNet是开源的,用来训练部署深层神经网络的深度学习框架。它是可扩展的,允许快速模型训练,并灵活支持多种语言(C ++,Python,Julia,Matlab,JavaScript, Go,R,Scala,Perl,Wolfram语言)

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

语义分割技术

语义分割,简单来说就是给定一张图片,对图片中的每一个像素点进行分类。图像语义分割是AI领域中一个重要的分支,是机器视觉技术中关于图像理解的重要一环。

图像分类技术

图像分类,根据各自在图像信息中所反映的不同特征,把不同类别的目标区分开来的图像处理方法。它利用计算机对图像进行定量分析,把图像或图像中的每个像元或区域划归为若干个类别中的某一种,以代替人的视觉判读。

暂无评论
暂无评论~