算法VS数据,谁起决定作用?一场南北大佬的隔空「辩论」引发对于AI的终极思考

算法VS数据,谁起决定作用?一场南北大佬隔空辩论引发对AI终极思考

人工智能的终极命题:算法和数据谁更重要?

如果算法已经能自动生产,框架将会是核心竞争力吗?

如果框架仍然不能构成核心壁垒,那会是什么?

第三波人工智能浪潮越浪越勇,吸引着一批又一批的学界大佬迈出象牙塔,投身于产业机构和田间地头,要问为什么?

问就一句话,「那里有比研究院所更丰富的海量数据,有更接近用户的真实战场」。

这个逻辑进而衍生出一连串值得探讨的有趣话题:数据很重要,那么数据究竟有多重要?数据会比算法更重要吗?在机器学习领域里,究竟数据和算法哪个重要?

事实上,算法、算力和数据,一直以来就被称之为人工智能的「三驾马车」。这个问题看似无解,好比问自行车的前轮重要还是后轮重要?人的左腿重要还是右腿重要?整体中的任何一个部分对于完成任务而言都是不可或缺的。同样的,数据和算法在机器学习中也是不可或缺的。

但这并不妨碍从业者对「数据与算法」的探讨和交流热情,也正是在这样的交流中,算法和数据的价值得到不断地延伸与挖掘。


一 数据VS算法,究竟谁更有竞争力?

「中国AI公司的优势并不是先进的算法,而是丰富的应用场景和大量的标注数据。正如文章所说:『我们使用的算法中并没有多少内容是地球上随便哪个计算机科学研究生拿不到的。没有中国无与伦比的标注基础设施,这些数据成不了气候。』

近日,中国科学院大学教授、中科院计算所先进计算机系统研究中心副主任包云岗借由一篇《经济学人》对于中国数据标注企业的报道在个人微博上展开了对于「数据及数据标注」行业的讨论,他呼吁在中国新基建的政策背景下,给予这个站在光鲜背后的行业更多关注和支持。

「一般大家都说人工智能有三个驱动力:算力、算法和数据。大家似乎对算力和算法关注得更多一些,而对数据的积累和处理关注就少很多。

最近看到一个企业『莫比嗨客MBH』,就是一个比较典型的数据处理企业,国内似乎对他们的报道很少,但《经济学人》却在一篇文章中把莫比嗨客放到与商汤、旷视科技同样的高度,甚至着墨更多。事实上,MBH也是一家2016年成立的公司,但已经发展到了30万人的规模。

现在各地都在新基建,其实政府在实施时,真可以考虑多支持一下这些数据处理『苦力』公司,他们似乎更符合新基建的内涵——提升信息处理能力、需要大量投入、可扩大就业。像莫比嗨客这样的公司,他们不仅为旷世商汤等提供标注数据,助力他们成为全世界知名的AI公司,同时也解决了大量的就业问题——莫比嗨客在西部雇了30万人进行数据标注,月薪3000元,是当地最低标准的三倍。

打个比喻,如果说旷世商汤是苹果公司,那么莫比嗨客就是富士康,也是人工智能产业链上不可或缺的一环。」

来自北京大学的网友「huangqundl」强调:

「但是并不是所有的数据都像文本、图像、语音这样可以找到大量廉价外包进行标注,比如网络数据标注就需要极高的专家知识,这就是为什么我对基于堆数据量的人工智能不感冒的原因。」

「 问题是数据和算法哪一个dominate?」网友将问题的焦点转至数据和算法的排位上。

南京大学教授周志华加入了讨论,他南京大学计算机科学与技术系主任兼人工智能学院院长。

周志华表示,「不是非此即彼的。好比没有米做不了饭,但要是以为有了米就能开饭馆,那是想的太容易了。那么开饭馆是米重要还是什么重要呢?」

对于「算法比数据更为重要」的观点,包云岗回应称:

「中国AI公司的优势并不是先进的算法,而是丰富的应用场景和大量的标注数据。正如文章所说:『我们使用的算法中并没有多少内容是地球上随便哪个计算机科学研究生拿不到的。没有中国无与伦比的标注基础设施,这些数据成不了气候。』

持相同观点的网友表示:「在公司,数据更重要。如果一个新算法和一堆新数据能达到一样效果,则必选数据。所谓先吃数据红利,再吃算法红利。」

「个人觉得数据重要。我说的是数据的结构,特征,分布。因为建模需要根据这些数据的特性来设计算法。所以说,算法是第二重要。当然,现在有很多通用算法可以直接用。第三重要的就是数据量。比如说,用印度米来做扬州炒饭,就是属于数据特性和算法不和。」

周志华认为,「厉害的公司在算法方面必然有东西,只不过不像论文发表出来谁都能看到。往往应用方不希望暴露,尤其不能泄露算法方案。所以看得到的只是水面上的。」

似乎倾向于「算法的重要性更胜一筹」。

二 如果数据无尽,AI何时不再依赖人?

让我们将问题再延伸一下,数据标注会有穷尽之时吗?

如果数据标注无穷尽,人工智能何时才能脱离标注走向成熟?

事实上,人工智能公司正在朝着这个方向逼近。「建造一座工厂,让数据在算力的熔炉中不断淬炼,成批成批的算法模型以更低的成本被生产出来,并源源不断的输入市场。」

「算法工厂」的概念由商汤科技联合创始人抛出。

在徐冰看来,如何能批量地生产模型,生产针对不同物体和场景的模型,这个已经是人工智能技术演进的关键问题。

接受《经济观察报》采访时,徐冰谈道,「算法工厂在经济上的价值是什么?就是公摊成本,你生产100个算法、1000个算法实际上只用了一套『沉没成本』,这意味着一个研究员可以生产出来多个工业化的模型,这需要算法生产的自动化。」

在商汤公司内部,一套名为「SenseParrots」技术框架正是这个「算法工厂」的原型。2015年,SenseParrots在内部发布并投入使用,具备多机多卡联合训练和多路径执行等领先业界的特性。彼时,谷歌开源TensorFlow,技术框架在人工智能领域风靡一时。

经过五年发展,目前「SenseParrots」已经从一个技术框架发展为一个工业级的模型生产平台,为商汤以AI技术赋能产业提供有力的支撑。

算法规模化生产的本质是对单个算法模型生产成本的压缩,这对于任何一家AI商业公司而言都至关重要。

今年3月,旷视宣布开源Brain++最为核心的部分—能够批量生产算法的深度学习框架MegEngine,开源的代码主要面向高校师生、传统产业和中小企业的AI开发者。

Brain++是旷视旗下的人工智能算法平台,旷视首席科学家、旷视研究院院长孙剑曾表示:旷视 Brain++ 让规模化算法训练成为可能。」

旷视 Brain++总体上可以大体分为三部分,其中即将开源的深度学习算法开发框架 MegEngine 是核心,其次是提供算力调度支持的深度学习云计算平台 MegCompute,以及用于提供数据服务和管理的数据管理平台 MegData。

据介绍,MegEngine作为Brain++最核心的引擎部分,不仅能够高效、批量生产算法,还具备独特的训练和推理一体化技术架构,同时集成了行业领先的自动机器学习(AutoML)技术,可以让算法来训练算法,让AI来创造AI。

中国AI公司走的这条路似乎已经被证实是切实有效的。

本周,在CVPR 2020 放榜,最佳论文、最佳学生论文等奖项悉数公布,该奖项被誉为计算机视觉模式识别领域的「奥斯卡」。虽然今年的录用率是十年来最低的一次(仅为22%),但毫无悬念的是中国代表团成为最大赢家。

在论文作者所属机构排名中,商汤、华为百度腾讯、阿里、旷视等产业代表战绩斐然。

商汤科技及联合实验室共有62篇论文入选,在多个领域实现突破,包括对抗式生成模型、三维点云理解与分析、训练加速与模型量化、视频理解与分析、网络结构搜索等;华为视觉研究团队此次为业界贡献了 34 篇论文,其中包括 7 篇oral论文;百度共有22篇论文入选;腾讯优图17篇论文入选。

但值得注意的是,此前背靠海外学术机构深度学习框架已经发展成为主流,从最开始蒙特利尔大学与伯克利大学提出的 Theano、Caffe 框架,到现在谷歌与 Facebook 维护的 TensorFlow、 PyTorch,开始逐步转向海外科技巨头。

那么,是否有必要再自创一套深度学习框架?

Caffe、Caffe2、PyTorch 的重要贡献者,曾参与 TensorFlow 研发,GoogleNet 作者的之一的贾扬清曾在阿里技术社区发文《贾扬清:我对人工智能方向的一点浅见》中谈道:「作为 AI 工程师,我们应该跳出框架的桎梏,往更广泛的领域寻找价值。」

「近年来框架的同质化说明了它不再是一个需要花大精力解决的问题,TensorFlow 这样的框架在工业界的广泛应用,以及各种框架利用 Python 在建模领域的优秀表现,已经可以帮助我们解决很多以前需要自己编程实现的问题。」

他在接受机器之心采访时进一步解释道,「这个事情我觉得核心竞争力不在框架上面。因为框架顾名思义它只是一个框子搭在那,还要填最底层的核心,比如说像高性能计算,芯片,都是更底层的核心,再往上,跟建模、业务对接,是框架之外更加需要来构建我们能力壁垒的一个东西。」


人工智能的终点将走向何处?

算法框架已经很常见,大量算法的规模化生产也不再是难事。那么人工智能的研究终点在哪里?

人工智能仍将会马不蹄停地不断发展,算法层面的往前推进只是一个过程,而真正的挑战还在于在业务快速发展的过程中,在同业务指标相结合的时候,找到整个科研创新基点,实现完整算法的整合。

「工程上需要的大量Know-How是教科书找不到的」所以,才有了从学术到工程之间的「千里之行」。

「今天我们所看到的业界趋势是从框架开始,我们在计算机系统,在整个M2M(machine to machine)平台上面,还有非常多的挑战,怎么样把人工智能计算跟大数据做结合,怎么样利用传统的编译器技术来优化AI的计算,这些是我们需要来进一步投入的地方。」贾扬清在接受采访时谈道。

数据决定了技术的上限,算法是逼近这个上限的追逐,而从技术到产品化,则是真正实现这个上限的过程,需要技术端和产品端相互合作和反馈修正。

学术是温室里的理想国,孕育着新生力量和无限可能,但能真正让技术走向成熟,让技术创造价值的地方是现实世界,在田间地头,在项目工地,在各种实际场景里……而这也是AI技术必须迈向产业化的根本原因。

入门人工智能数据科学算法
相关数据
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商,致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。目前华为有19.4万员工,业务遍及170多个国家和地区,服务30多亿人口。

https://www.huawei.com/cn/
商汤科技机构

作为全球领先的人工智能平台公司,商汤科技SenseTime是中国科技部指定的“智能视觉”国家新一代人工智能开放创新平台。同时,商汤科技也是全球总融资额及估值最高的人工智能创新企业。 商汤科技以“坚持原创,让AI引领人类进步”为愿景。公司自主研发并建立了全球顶级的深度学习平台和超算中心,推出了一系列领先的人工智能技术,包括:人脸识别、图像识别、文本识别、医疗影像识别、视频分析、无人驾驶和遥感等。商汤科技已成为亚洲最大的AI算法提供商。 商汤科技在多个垂直领域的市场占有率位居首位,业务涵盖智能手机、互联网娱乐、汽车、智慧城市、以及教育、医疗、零售、广告、金融、地产等多个行业。目前,商汤科技已与国内外700多家世界知名的企业和机构建立合作,包括本田、SNOW、阿里巴巴、苏宁、中国移动、OPPO、vivo、小米、微博、万科、融创等。

http://www.sensetime.com
周志华人物

周志华分别于1996年6月、1998年6月和2000年12月于 南京大学计算机科学与技术系获学士、硕士和博士学位。主要从事人工智能、机器学习、数据挖掘 等领域的研究工作。主持多项科研课题,出版《机器学习》(2016)与《Ensemble Methods: Foundations and Algorithms》(2012),在一流国际期刊和顶级国际会议发表论文百余篇,被引用三万余次。

孙剑人物

孙剑,男,前微软亚研院首席研究员,现任北京旷视科技有限公司(Face++)首席科学家、旷视研究院院长 。自2002年以来在CVPR, ICCV, SIGGRAPH, PAMI等顶级学术会议和期刊上发表学术论文100余篇,两次获得CVPR最佳论文奖(2009, 2016)。孙剑博士带领的团队于2015年获得图像识别国际大赛五项冠军 (ImageNet分类,检测和定位,MS COCO 检测和分割) ,其团队开发出来的“深度残差网络”和“基于区域的快速物体检测”技术已经被广泛应用在学术和工业界。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

调度技术

调度在计算机中是分配工作所需资源的方法。资源可以指虚拟的计算资源,如线程、进程或数据流;也可以指硬件资源,如处理器、网络连接或扩展卡。 进行调度工作的程序叫做调度器。调度器通常的实现使得所有计算资源都处于忙碌状态,允许多位用户有效地同时共享系统资源,或达到指定的服务质量。 see planning for more details

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

模式识别技术

模式识别(英语:Pattern recognition),就是通过计算机用数学技术方法来研究模式的自动处理和判读。 我们把环境与客体统称为“模式”。 随着计算机技术的发展,人类有可能研究复杂的信息处理过程。 信息处理过程的一个重要形式是生命体对环境及客体的识别。其概念与数据挖掘、机器学习类似。

TensorFlow技术

TensorFlow是一个开源软件库,用于各种感知和语言理解任务的机器学习。目前被50个团队用于研究和生产许多Google商业产品,如语音识别、Gmail、Google 相册和搜索,其中许多产品曾使用过其前任软件DistBelief。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

数据管理技术

数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程,其目的在于充分有效地发挥数据的作用。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
旷视机构

北京旷视科技有限公司是一家行业领先的人工智能公司,在深度学习方面拥有核心竞争力。旷视向客户提供包括先进算法、平台软件、应用软件及内嵌人工智能功能的物联网设备的全栈式解决方案,并在多个行业取得领先地位。2017年和2019年,旷视跻身《麻省理工科技评论》发布的两项「50大最聪明公司」榜单中。 旷视是全球为数不多的拥有自主研发深度学习框架的公司之一,旷视自研的深度学习框架MegEngine作为旷视人工智能算法平台Brain++的核心组件,为算法训练、部署及模型改进过程提供重要支持。 旷视总部位于北京,拥有 2,000 多名员工,并在北京、上海、南京、成都等地都设有研发中心。旷视的典型客户包括金融科技公司、银行、智能手机公司、第三方系统集成商、物业管理者、学校、物流公司及制造商等。

https://www.megvii.com/
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
机器之心机构

机器之心,成立于2014年,是国内最具影响力、最专业、唯一用于国际品牌的人工智能信息服务与产业服务平台。目前机器之心已经建立起涵盖媒体、数据、活动、研究及咨询、线下物理空间于一体的业务体系,为各类人工智能从业者提供综合信息服务和产业服务。

https://www.jiqizhixin.com/
结构搜索技术

深度学习提供了这样一种承诺:它可以绕过手动特征工程的流程,通过端对端的方式联合学习中间表征与统计模型。 然而,神经网络架构本身通常由专家以艰苦的、一事一议的方式临时设计出来。 神经网络架构搜索(NAS)被誉为一条减轻痛苦之路,它可以自动识别哪些网络优于手工设计的网络。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

找到机构
新基点机构
北京大学机构

北京大学创办于1898年,初名京师大学堂,是中国第一所国立综合性大学,也是当时中国最高教育行政机关。辛亥革命后,于1912年改为现名。2000年4月3日,北京大学与原北京医科大学合并,组建了新的北京大学。原北京医科大学的前身是国立北京医学专门学校,创建于1912年10月26日。20世纪三、四十年代,学校一度名为北平大学医学院,并于1946年7月并入北京大学。1952年在全国高校院系调整中,北京大学医学院脱离北京大学,独立为北京医学院。1985年更名为北京医科大学,1996年成为国家首批“211工程”重点支持的医科大学。两校合并进一步拓宽了北京大学的学科结构,为促进医学与人文社会科学及理科的结合,改革医学教育奠定了基础。

官网,http://www.pku.edu.cn/
推荐文章
暂无评论
暂无评论~