闻菲、陈萍原创

专访唐杰 | 我国首个超大智能模型「悟道」发布,迎接基于模型的AI云时代

唐杰认为,超大规模预训练模型的出现,很可能改变信息产业格局,继基于数据的互联网时代、基于算力的云计算时代之后,接下来可能将进入基于模型的 AI 时代。智源研究院致力于成为这样一个时代的引领者,集聚各方资源力量,构建一个超大规模智能模型技术生态和开放平台,供北京乃至全国的研究人员、开发者和企业使用。

自 2018 年谷歌发布 BERT 以来,预训练模型(Pre-trained Models,PTMs)逐渐成为自然语言处理(NLP)领域的主流。

2020 年 5 月,OpenAI 发布了拥有 1750 亿参数量的预训练模型 GPT-3。作为一个语言生成模型,GPT-3 不仅能够生成流畅自然的文本,还能完成问答、翻译、创作小说等一系列 NLP 任务,甚至进行简单的算术运算,并且其性能在很多任务上都超越相关领域的专有模型,达到 SOTA 水平。

很快,OpenAI 便开始了 GPT-3 的商业化探索,并催生了一系列落地应用,微软的巨额投资也立马跟进。同样看中 PTM 潜力的谷歌,在 2021 年初推出超级语言模型 Switch Transformer,将参数量提升至万亿级别。

以 GPT-3 为代表的超大规模预训练模型,不仅以绝对的数据和算力优势彻底取代了一些小的算法和模型工程,更重要的是,它展示了一条探索通用人工智能极富潜力的路径。然而,作为全球使用人数第一的语言,中文 PTM 寥寥可数。在这样的发展态势下,构建以中文为核心的超大规模预训练模型及生态势在必行。

2021 年 3 月 20 日,北京智源人工智能研究院(下称「智源研究院」)发布了我国首个超大规模智能模型系统「悟道」的第一阶段成果。「悟道」由智源研究院牵头,汇聚清华、北大、人大、中科院等高校院所,以及诸多企业的 100 余位 AI 领域专家共同研发,从基础性能、有效使用到预训练模型扩展,提出一系列创新解决方法,取得多项国际领先的 AI 技术突破和多个世界第一。

机器之心专访了智源研究院学术副院长、清华大学教授唐杰。作为悟道项目负责人,唐杰分享了团队关于超大规模预训练模型的技术思考和战略布局,以及智源研究院作为新一代 AI 研究机构的优势。

智源研究院学术副院长、清华大学教授唐杰

唐杰认为,超大规模预训练模型的出现改变了 AI 产业格局,继基于数据的互联网时代、基于算力的云计算时代之后,接下来可能将进入基于模型的 AI 时代。而智源研究院要做的,则是致力于成为这样一个时代的引领者,集聚各方资源力量,构建一个超大规模智能模型技术生态和开放平台,供北京乃至全国的研究人员、开发者和企业使用。

今后越来越多的人会使用云上的超大规模预训练模型作为其 AI 研究和应用的基础。超大规模预训练模型系统将成为一种 AI 基础设施,推动理论研究和技术应用更上一层。

超大模型势在必行,迎接基于模型的 AI 时代

AI 模型越做越大这件事不是最近才发生的。早在 3 年前便有人统计指出,计算机视觉领域的 SOTA 模型体积越来越大 [1]。

NLP 领域亦然,从最早的 ELMo(5 亿参数)到后来的 Turing NLG(170 亿参数),GPT-3 更是将模型的体积和复杂度拔升至一个全新的境界。美国大规模在线预测征求和汇总引擎 Metaculus 曾做过一项调研,参加者预计 GPT-4 参数量的中位数大约在 2.5 万亿 [2]。

唐杰表示,大模型可以包含更多数据,表示更多信息,模型往超大规模发展是一个必然的趋势。目前有很多团队都在做万亿级模型,国外有 DeepMind、谷歌Brain,国内有华为、快手等,研究成果各有千秋。

「谷歌在今年 1 月就已经推出了万亿参数模型,但精度上并没有提升很多。」因此,他推测 GPT-4 的参数规模很有可能上万亿,不仅如此,OpenAI 还会强调模型在众多任务上精度的提高。

智源也在布局万亿级模型,包括配套的高性能算力平台。不过,唐杰表示,由于万亿级模型参数量过于庞大,模型设计非常复杂,训练耗时长,直接使用还存在一定困难,很多时候反而不如百亿级的模型。在现阶段的实际应用中,充分利用数据,参数规模更小的模型常常能实现更好的性能。

目前,悟道团队一方面扩大模型的规模,让模型的表示能力更强,一方面针对实际应用,提高精度。此外,还在模型微调算法上进行创新,希望早日打通百亿级模型和万亿级模型的桥梁。

「如果能用万亿级模型在一些任务上取得性能的显著提升,这将是一个里程碑式的进步。」唐杰说。

随着算力的不断提升,我们现在可以训练越来越大的模型。或许有一天,真能出现与人脑突触量级相当的 100 万亿参数模型。即便这样的模型真能做出来,训练也势必花费巨资,动辄数十亿美元。

超大规模预训练模型只能是有钱人的游戏吗?小团队如何创新?

对此,唐杰的看法是,人工智能发展可以分为这样几个阶段:继基于数据的互联网时代、基于算力的云计算时代之后,接下来可能将进入基于模型的 AI 时代,相当于把数据提升为超大规模预训练模型。未来,研究人员可以直接在云模型上进行微调,很多公司甚至不用维护自己的算法研发团队,只需要简单的应用工程师就行。

超大规模预训练模型系统的开放,小团队可以说是最大的受益者,大家不必从零开始,预训练基线智能水平大幅提升,平台多样化、规模化,大家在云上可以找到自己所需的模型,剩下的就是对行业、对场景的理解。这将给 AI 应用创新带来一个全新的局面。

至于基础研究,唐杰说:「理论上可以研究得更深、更系统了,以前研究这个模型使用这种数学方法好,现在可以摆到台面上、扩大到更广的范围来。」

「数据规模化的使用,将促使业界和有关机构更深入地讨论哪些内容可以学、哪些内容不能学,更加注重 AI 伦理、数据隐私、保密和安全等问题。」

智源悟道 1.0 阶段性成果发布,取得多项世界第一

智源研究院自 2020 年 10 月正式启动超大规模智能模型「悟道」项目,悟道 1.0 已启动了 4 个大模型的开发,取得多项国际领先 AI 技术突破,持续填补我国研究领域空白:

悟道 · 文汇——首个面向认知的超大规模新型预训练模型

该模型在多项任务中表现已接近突破图灵测试,通过简单微调即可实现 AI 作诗、AI 作图、AI 制作视频、图文生成、图文检索和一定程度的复杂推理。尤其是 AI 作诗方面,已接近诗人水平,并能首次实现根据现代概念生成古体诗。文汇的最终目标是研发出更通用且性能超越国际水平的预训练模型,搭建预训练模型体系,形成认知智能的生态。

悟道 · 文澜——首个超大规模多模态预训练模型

该模型基于从公开来源收集并脱敏的 5000 万个图文对上进行训练,性能已达国际领先水平,在中文公开多模态测试集 AIC-ICC 的图像生成描述任务中,得分比冠军队高出 5%;采用双塔模型,在图文互检任务中,得分比目前最流行的 UNITER 模型高出 20%。最终目标是生成产业级中文图文预训练模型和应用。目前,文澜模型已对外开放 API。

悟道 · 文源——首个以中文为核心的超大规模预训练模型

该模型目前参数量 26 亿,预训练数据规模 100 GB,具备识记、理解、检索、多语言等多种能力,并覆盖开放域回答、语法改错、情感分析等 20 种主流中文自然语言处理任务,技术能力已与 GPT-3 实现齐平。最终目标是构建完成全球规模最大的、以中文为核心的预训练语言模型,探索具有通用能力的自然语言理解技术,进行脑启发的语言模型研究。

悟道 · 文溯——超大规模蛋白质序列预测预训练模型

该模型已在蛋白质方面完成基于 100GB UniParc 数据库训练的 BERT 模型,在基因方面完成基于 5-10 万规模的人外周血免疫细胞(细胞类型 25-30 种)和 1 万耐药菌的数据训练,同时搭建训练软件框架并验证其可扩展性。最终目标是以基因领域认知图谱为指导,研发出可以处理超长蛋白质序列的超大规模预训练模型,在基本性能、可解释性和鲁棒性等多个方面达到世界领先水平。

同时,悟道数据团队还构建并开放了全球最大中文语料数据库 WuDaoCorpora,数据规模达 2TB,超出之前全球最大中文语料库 CLUECorpus2020 十倍以上。该数据库不仅为悟道项目提供了数据支撑,由于来源广泛及多样性,可广泛用于中文 NLP 领域中多种任务的模型训练,并使模型具有更好的泛化性。数据经过了专门的清洗,确保隐私和安全及保密问题。

为进一步实现模型规模和性能的扩增中面临的挑战,悟道系统团队还开源了 FastMoE,作为首个支持 PyTorch 框架的高性能 MoE 系统,打破了行业研究受制于谷歌的局限,支持多种硬件,只需一行代码即可完成 MoE 化改造,相比 PyTorch 朴素实现速度提升 47 倍。

所有的 NLP 任务都是生成任务

唐杰认为,超大规模预训练模型有三个关键:首先,模型本身,这也是团队智慧的体现;其次,大算力;第三,高质量的数据。

目前,悟道团队在模型设计上:第一,针对复杂任务设计模型,通过记忆机理或者类似于推理的机理,把一些更远的上下文信息加入到预训练中;第二,在把模型做大的过程中,要能加速模型收敛性;第三,在后端的微调算法上探索,提高模型的可用性,把下游任务的精度大大提高。

在此次发布的多项突破中,由唐杰率领的悟道文汇团队提出全新的预训练范式 GLM,以生成为核心,打破 BERT 和 GPT 瓶颈,同时在语言理解、生成和 Seq2Seq 任务上取得最佳性能。

文汇团队还提出了基于连续向量的微调算法 P-Tuning,首次实现自回归模型在理解任务上超越自编码模型,并在知识抽取 (LAMA)、少样本学习 (Superglue Fewshot) 等 10 多个任务上取得世界第一,性能提升超 20%。

GLM:基于生成的通用预训练框架

谈到 GLM 的技术实现思路,唐杰表示,基于双向模型 BERT 和 GPT 各自在理解和生成上的优势,团队便思考如何将这两个模型的优点融合在一起。随着研究的进行,他们修改了优化结合的方式,在优化目标函数上做了尝试。再后来发现,auto-encoder、seq-seq 以及填空任务等都可以整合到生成模型中,所有的 NLP 任务都可以被视为生成任务,统一在一个通用框架下。

唐杰表示,机器学习的传统上可以分为判别模型生成模型,这两大派系也在不断融合。当数据量少的情况下,判别模型的效果会更好;而生成模型则比较复杂,需要在「理解」的基础上进行判别,而大数据、大模型、大算力的到来,为生成模型提供了基础,计算机可以实现基于大参数的「理解」,这也是如今生成式方法成为机器学习大态势的原因。

至于是否可以将生成看作是「理解」,「其实这是一个哲学问题」,唐杰说。

计算机到底需不需要「理解」,人类「理解」的本质又是什么?对此,悟道团队做了很多的思考。

最简化地讲,人类的理解分三个层次:第一种可以叫做人脑知识 query,把已经记住的知识查取出来;第二种叫 case based,基于以前的认知和经验来完成新的任务;第三种叫随机推理,也叫试错性推理。

人类的这三种推理方式,其实计算机都可以实现。唐杰认为,当有一天计算机在众多任务上通过了图灵测试,就可以把计算机「理解」问题的引号去掉了。

数据和知识双轮驱动的通用 AI 之路

假设有一个囊括全世界所有数据的模型,我们想要完成什么任务,给它输入,模型返回多个候选结果,人类在此基础上进行调整完善,再将结果反馈给模型,让其优化。与此同时,模型自身也能不断地从网络上抓取数据进行自我学习…… 长此以往,最终获得的模型,是否就是通用 AI 呢?

唐杰说,「这其实也涉及到一个哲学问题」。关于计算机能否像人一样思考,甚至超越人类智慧,「很多人包括我自己在内,都是不相信,或者说不敢这样认为的。但是,现在我的想法转变了,我认为计算机实现乃至超越人类智能是可以实现的。」

悟道大规模预训练模型系统的目标,便是从更本质角度进一步探索通用人工智能,让机器像人一样思考,让模型具有认知能力。对于神经科学和人脑的思维方式,唐杰表示自己的发言权十分有限,但总的来讲,如果可以用计算机模型实现人类认知的 9 个准则,那么他认为计算机就可以被称为具有认知能力。

认知 AI 需要具有的 9 大能力

但他也补充说,如果那一天实现了,也不代表计算机就把人脑颠覆了,也许到那一天,我们人脑也会进步。「人的思维,包括我们的学习能力和进化能力,尤其是当人类处于压力情况下,我们会往前大大进化一步。而且,人的思维方式和思维的本质目前也没有真正得到一个结论。」

像刚才说的那样,让模型包含尽可能多的数据,并从数据中提出内容,一般被称为人工智能研究的「纯学习派」。同时,还有另一个派系,也就是传统「符号 AI」,认为只需要把知识表示出来,计算机做搜索、匹配就可以了。

悟道团队走的是将知识与数据相结合的路线,这也是张钹院士在几年前提出的看法。「悟道在用两条腿走路」,唐杰说:「一条腿是数据模型,另一条腿是知识图谱。」一方面把知识图谱做得非常大,另一方面,把知识图谱放到预训练模型中,抽取知识图谱反哺模型,进行双轮驱动,「我认为这是当前实现通用人工智能最有前景的方法」。

唐杰表示,我们应该允许机器犯错,犯错不可怕,最关键是要知道错误的原因。人的认知中有一个试错过程,意识到错误会反馈修改。「什么叫做『创新』?人通过试错,如果试对了,就是一种『创新』。」

尽管在受限领域,计算机已经可以自我纠错,比如 AlphaZero,在下棋过程中会感知自己走错了,然后进行反馈,自我进化。但在通用领域,计算机是没有这个反馈的,它错了以后没法修正,甚至不知道自己错了。

那把受限领域都集中到一起,是否就能让机器在通用领域自我纠错了呢?唐杰指出,这是数据和知识的一个悖论,人总觉得自己的知识是无限扩张的,人每天都可以创造新的知识,无法把所有知识都装在机器里。

而机器生成的内容,很多人不认为是知识或者「创新」,而只是一种组合。「如果有一天机器发现的东西获得了诺贝尔奖,那我认为就可以视机器能够『创新』。」

科学没有高下之分,只看能在多大程度上解决 Why 与 How

「哲学」这个词在采访中多次出现;超大规模预训练模型的出现,让唐杰从不相信、不敢认为,到相信机器的智能可能超越人类。

但是,也有观点认为大规模预训练模型是大数据、大算力之下的暴力美学,缺乏对世界本源的理解。唐杰认为,这个世界上科学就两种,一种是回答 Why,一种是 How。而回答 Why 有两个范畴,一个叫做基础理论科学,另一个叫做工程科学,两者没有高下之分。

至于 How,则是看研究成果应用范围有多广,以及真正能推动哪些产业进步。具体到超大规模预训练模型,唐杰认为模型上云是一个大的方向,将来谁可以成为模型上云引领者,推动整个产业的发展,谁就是最终的成就者,「这就是所说的 how 以及谁能做这个事」。

而探究人脑思维则是在回答 Why。「科学的本质是什么?为什么人脑的思维就一定要强过计算机?对此我们可以大胆质疑,小心求证,大家说人类智能比机器好,我们可以反过来问,为什么机器的智能不能比人好?这是回答 Why 的过程。」

唐杰表示,科研成果的评价指标需要根据不同的行业、不同的场景来判别,归根结底是看能在多大程度上解决了 Why 与 How,是否真正推进了社会的进步。就像万亿级参数模型,可能这个世界上 99% 的公司都用不上,但是作为科研探索很重要。

要做就做最难的、对标最好的

智源悟道 1.0 的发布,标志着「智源模式」取得阶段性实质进展。

作为新型的 AI 研究机构,智源研究院聚焦原始创新与核心技术,致力于建立自由探索与目标导向相结合的科研体制。作为北京市 AI 战略科技平台,智源从创立以来,在科研机制上进行了多种尝试,比如「智源学者计划」,支持科学家勇闯无人区,「就是想做什么就做什么,」唐杰说:「只要够牛,要么回答了 how,要么回答了 why,而且是别人做不到的。」

同时,智源研究院也会围绕目标明确、有战略意义的大项目,灵活机动地组织跨学科、跨机构的专业研究和工程人员,组成紧密协作的大规模团队,共同攻关,比如这次的超大规模智能模型系统项目。

「GPT-3 出来以后,我们看到市场未来产业化的发展,从数据云到计算云到模型云,这是一个大的趋势,智源研究院有义务、也有能力来引领,因此迅速确定目标,组织团队。」唐杰说:「每个参与方,包括高校、企业和研究院所,都是带有目标、带有资源、带有情怀的,因此能够通力协作。」

唐杰介绍说,悟道 1.0 只是一个阶段性的成果,今年 6 月将会有一个更大、更高的智慧模型发布。第一,模型规模会有实质性的进展;第二,模型会在更多任务上突破图灵测试;第三,把应用平台做得更加夯实。后续悟道模型将以开放 API 的形式对外提供服务,用户通过申请并经授权后,可以基于模型 API 开发各类智能化应用。另外,也会开源模型的社区版本,服务我国 AI 科研发展。

「我们希望每一个我们做的东西一定是世界上最好的,如果不能做到最好,那就不做了。或者,如果很多人都能做得比较好,我们也不做,我们就要做最难的,对标最好的,包括我自己的定位。」

「此外,光盯着现在的事情我们也不做,我们要瞄向下一步,十年以后、二十年以后人工智能是什么样子,我们觉得能做就会去做。认知 AI 是我特别看好的,预训练模型和知识数据双轮驱动,是实现通用 AI 的其中一个办法。我非常坚信,十年、二十年以后,计算机在很多任务上就能突破图灵测试。」

注释
[1] https://heartbeat.fritz.ai/deep-learning-has-a-size-problem-ea601304cd8
[2] https://www.metaculus.com/questions/4852/how-many-parameters-will-gpt-4-have-if-it-is-released-in-billions-of-parameters/

入门唐杰悟道超大模型
相关数据
清华大学机构

清华大学(Tsinghua University),简称“清华”,由中华人民共和国教育部直属,中央直管副部级建制,位列“211工程”、“985工程”、“世界一流大学和一流学科”,入选“基础学科拔尖学生培养试验计划”、“高等学校创新能力提升计划”、“高等学校学科创新引智计划”,为九校联盟、中国大学校长联谊会、东亚研究型大学协会、亚洲大学联盟、环太平洋大学联盟、清华—剑桥—MIT低碳大学联盟成员,被誉为“红色工程师的摇篮”。 清华大学的前身清华学堂始建于1911年,因水木清华而得名,是清政府设立的留美预备学校,其建校的资金源于1908年美国退还的部分庚子赔款。1912年更名为清华学校。1928年更名为国立清华大学。1937年抗日战争全面爆发后南迁长沙,与北京大学、南开大学组建国立长沙临时大学,1938年迁至昆明改名为国立西南联合大学。1946年迁回清华园。1949年中华人民共和国成立,清华大学进入了新的发展阶段。1952年全国高等学校院系调整后成为多科性工业大学。1978年以来逐步恢复和发展为综合性的研究型大学。

http://www.tsinghua.edu.cn/
相关技术
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商,我们致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界:让无处不在的联接,成为人人平等的权利;为世界提供最强算力,让云无处不在,让智能无所不及;所有的行业和组织,因强大的数字平台而变得敏捷、高效、生机勃勃;通过AI重新定义体验,让消费者在家居、办公、出行等全场景获得极致的个性化体验。目前华为约有19.4万员工,业务遍及170多个国家和地区,服务30多亿人口。

https://www.huawei.com/cn/
DeepMind机构

DeepMind是一家英国的人工智能公司。公司创建于2010年,最初名称是DeepMind科技(DeepMind Technologies Limited),在2014年被谷歌收购。在2010年由杰米斯·哈萨比斯,谢恩·列格和穆斯塔法·苏莱曼成立创业公司。继AlphaGo之后,Google DeepMind首席执行官杰米斯·哈萨比斯表示将研究用人工智能与人类玩其他游戏,例如即时战略游戏《星际争霸II》(StarCraft II)。深度AI如果能直接使用在其他各种不同领域,除了未来能玩不同的游戏外,例如自动驾驶、投资顾问、音乐评论、甚至司法判决等等目前需要人脑才能处理的工作,基本上也可以直接使用相同的神经网上去学而习得与人类相同的思考力。

https://deepmind.com/
唐杰人物

唐杰是清华大学计算机系副教授。他以学术社交网络搜索系统Arnetminer而闻名,该系统于2006年3月推出,目前已吸引来自220个国家的2,766,356次独立IP访问。他的研究兴趣包括社交网络和数据挖掘。

AlphaZero技术

DeepMind 提出的 AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。DeepMind 推出的 AlphaGo 曾在围棋项目中取得了超越人类的表现,其研究曾经两次登上 Nature。2018 年 12 月,AlphaGo 的「完全自我博弈加强版」AlphaZero 的论文又登上另一大顶级期刊 Science 的封面。在论文中,AlphaZero 不仅征服了围棋,也在将棋、国际象棋等复杂游戏中实现了超越人类的表现。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

判别模型技术

在机器学习领域,有一种分类方法将模型分为判别模型和生成模型(generative model)两种。 判别模型是一种对未知数据y与已知数据x之间关系进行建模的方法,是一种基于概率理论的方法。已知输入变量x,判别模型通过构建条件概率P(y|x)分布预测结果,或试图直接从输入x的空间学习映射到标签{0,1}(如感知器算法)的函数。生成模型则是考虑x与y之间的联合分布。 在实际应用中判别模型非常常见,如:逻辑回归(logistic regression),支持向量机(support vector machine), 提升方法(Boosting),条件随机场(conditional random fields),神经网络(neural network),随机森林(random forests)典型的生成模型则包括:高斯混合模型(Gaussian Mixture Model),隐马尔科夫模型(hidden markov model),简单贝叶斯(naive Bayes)等。不难看出两者的区别。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

神经科学技术

神经科学,又称神经生物学,是专门研究神经系统的结构、功能、发育、演化、遗传学、生物化学、生理学、药理学及病理学的一门科学。对行为及学习的研究都是神经科学的分支。 对人脑研究是个跨领域的范畴,当中涉及分子层面、细胞层面、神经小组、大型神经系统,如视觉神经系统、脑干、脑皮层。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

收敛技术

在数学,计算机科学和逻辑学中,收敛指的是不同的变换序列在有限的时间内达到一个结论(变换终止),并且得出的结论是独立于达到它的路径(他们是融合的)。 通俗来说,收敛通常是指在训练期间达到的一种状态,即经过一定次数的迭代之后,训练损失和验证损失在每次迭代中的变化都非常小或根本没有变化。也就是说,如果采用当前数据进行额外的训练将无法改进模型,模型即达到收敛状态。在深度学习中,损失值有时会在最终下降之前的多次迭代中保持不变或几乎保持不变,暂时形成收敛的假象。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

数据库技术

数据库,简而言之可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据运行新增、截取、更新、删除等操作。 所谓“数据库”系以一定方式储存在一起、能予多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。

云计算技术

云计算(英语:cloud computing),是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需求提供给计算机各种终端和其他设备。

语料库技术

语料库一词在语言学上意指大量的文本,通常经过整理,具有既定格式与标记;事实上,语料库英文 "text corpus" 的涵意即为"body of text"。

目标函数技术

目标函数f(x)就是用设计变量来表示的所追求的目标形式,所以目标函数就是设计变量的函数,是一个标量。从工程意义讲,目标函数是系统的性能标准,比如,一个结构的最轻重量、最低造价、最合理形式;一件产品的最短生产时间、最小能量消耗;一个实验的最佳配方等等,建立目标函数的过程就是寻找设计变量与目标的关系的过程,目标函数和设计变量的关系可用曲线、曲面或超曲面表示。

图像生成技术

图像生成(合成)是从现有数据集生成新图像的任务。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

图灵测试技术

图灵测试(英语:Turing test,又译图灵试验)是图灵于1950年提出的一个关于判断机器是否能够思考的著名试验,测试某机器是否能表现出与人等价或无法区分的智能。测试的谈话仅限于使用唯一的文本管道,例如计算机键盘和屏幕,这样的结果是不依赖于计算机把单词转换为音频的能力。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

自回归模型技术

自回归模型,是统计上一种处理时间序列的方法,自回归模型被广泛运用在经济学、资讯学、自然现象的预测上。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

ELMo技术

ELMO 是“Embedding from Language Models”的简称, ELMO 本身是个根据当前上下文对 Word Embedding 动态调整的思路。ELMO 采用了典型的两阶段过程,第一个阶段是利用语言模型进行预训练;第二个阶段是在做下游任务时,从预训练网络中提取对应单词的网络各层的 Word Embedding 作为新特征补充到下游任务中。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

算术技术

算术(英语:arithmetic)是数学最古老且最简单的一个分支,几乎被每个人使用着,从日常生活上简单的算数到高深的科学及工商业计算都会用到。一般而言,算术这一词指的是记录数字某些运算基本性质的数学分支。

推荐文章
暂无评论
暂无评论~