Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部机器之心发布

无监督学习、多模态融合!腾讯优图联合厦门大学发布2021十大人工智能趋势

腾讯优图实验室联合厦门大学人工智能研究院发布《2021 十大人工智能趋势》报告,对 3D 视觉技术、深度学习算法、人工智能内核芯片等众多领域的发展趋势进行了预测。

6 月 5 日,2021 全球人工智能技术大会(GAITC 2021)在杭州举办,汇集人工智能产学研各界领军者,以国际化、前瞻化、产业化视角,解析并洞察了新一代人工智能发展路径。

在大会上,腾讯优图实验室联合厦门大学人工智能研究院正式发布《2021 十大人工智能趋势》(以下简称“趋势报告”),基于双方长期对人工智能尤其是计算机视觉的研究洞察,对 3D 视觉技术、数字内容产业、AI 深度学习算法、人工智能内核芯片等众多领域的发展趋势进行了预测。

趋势报告指出,随着深度学习在多个人工智能的细分领域(如视觉,自然语言处理等)日趋成熟化和规模化,多模态融合成为真正实现通用人工智能的必然选择,人工智能也将从感知智能迈向认知智能;同时,随着算法和硬件能力的不断升级,3D 视觉智能技术将推动商业发展和个人消费升级;深度学习迈向多模态融合,边缘计算人工智能加速融合,AI 算法的公平性研究将推动 AI 应用走向普惠。

以下为《2021 十大人工智能趋势》详细内容:

1、自动机器学习的自动化程度与可解释性得到进一步提升

自动机器学习(AutoML)目前已经在多个领域中初步实现对机器学习方法的自动化设计过程,但其仍然存在自动化程度不足,可解释性不强的问题。如神经网络结构搜索(NAS)在一些应用领域中取得了可以与人类机器学习专家可比较的水平,然而现有的 NAS 方法实际需要基于人工设计的神经网络基础结构。此外,AutoML 的自动化过程往往被认为是一种 “黑箱”,缺乏可解释性。今后自动化程度及可解释性仍然是 AutoML 研究的热点问题,通过提高 AutoML 中的超参数选择,特征表示与机器学习算法的确定和神经网络结构搜索的自动化程度及可解释性,AutoML 将实现对机器学习涉及的每个环节的真正的自动化设计过程。AutoML 整个体系架构的日趋完善,将推动新一代普适性 AutoML 平台的建设,并实现机器学习的大众化。

2、无监督 / 弱监督学习逐渐成为企业降本增效新利器

在过去的几年中,深度学习所取得的巨大成功离不开大规模标注的数据集。大规模标注的背后,是传统的监督学习对于每一个训练样本完备标签的要求。随着业务规模的不断扩大,越来越多的企业发现数据的标注开始成为抬高交付成本、制约效果提升的主要因素之一。在此背景下,无监督学习和弱监督学习通过不使用标签或减少对标签数量、质量的要求来迅速降低深度模型对于数据的标注需求,使得原本无法利用的数据如今都可以加入到模型的训练中去,进而由量变引发质变。在 NLP 领域,基于 Transformer 的无监督训练模型已持续霸榜各种 NLP 任务数据集;在 CV 领域,最新的 MPL 方法也通过额外的无标注数据集首次将 ImageNet 的 Top-1 分类准确率提升到了 90%+ 的水平。可以预见的是,将有越来越多的人工智能企业会面临从前期的迅速扩张到稳定期高效化运作的新阶段,而在这个过程中,无监督 / 弱监督学习无疑将成为他们过渡到这个阶段的重要手段之一。

3、3D 视觉技术助力产业消费升级,淡化虚实边界

作为视觉 AI 领域多年热点研究方向之一,3D 视觉技术的核心任务是对三维空间、物体及环境进行真实还原与重建。随着相关算法与硬件计算能力的不断升级, 3D 视觉算法效果得到大幅提升,三维几何重建更加精细,表面纹理重建更加清晰,带来更加逼真的视觉观感。近年来,诸多 3D 视觉研究成果为低成本高质量的 3D 内容生成提供了良好技术支撑,基于 3D 虚拟形象的舞台演出、直播带货、教育互动等应用层出不穷,成为 AI 内容产业全新发展方向。以此为基础,结合 5G 时代流量带宽的全面升级,带有交互功能的 3D 虚拟现实增强现实、混合现实的 3D 视觉应用将用户体验向真实与虚拟的完美融合进一步迈进。用户会因为虚拟偶像生动自然的舞台表演进行打赏,会由于虚拟主播 “卖力” 地带货促销而下单购买,而线上平台则依靠 3D 视觉技术大大降低内容制作和 IP 运营成本,最终带来社会商业发展模式与个人消费习惯的颠覆与变革。展望未来,3D 视觉技术将持续在包括游戏娱乐、影视制作、电商直播、医疗整形等众多领域广泛应用,虚拟与现实的边界将不断淡化。

4、多模态融合加速 AI 认知升维

深度学习在多个人工智能的细分领域(如视觉,自然语言处理等)已日趋成熟化和规模化,然而要真正实现通用人工智能,必然要将这些细分领域各自所针对的信息模态整合利用,即多模态融合。多模态融合的目标是建立在图像、文字、语音等的多模态信息识别的基础上,实现不同模态信息的统一表征框架,从而起到 1+1>2 的作用。典型的场景之一是通过图文语音联合识别,实现对隐晦和暗示性,招嫖广告,儿童不良表情包等图文混合内容识别,支持审核业务深度打击不良内容。除了图文融合等跨域模态融合,同域内的不同信息维度同样可以融合,如随着深度生成技术的发展,当前的人脸识别除了传统的 RGB 图外,还需要融合深度图、红外图等信息来更好的防御越来越多元化的人脸伪造攻击,实现更强的人脸防御。随着人工智能认知能力的提升,多模态融合也将会从图文等实质性模态,逐渐拓展到如物理关系,逻辑推断,因果分析等知识性模态,从感知智能迈向认知智能。

5、人工智能推动数字内容生成向新范式演进

随着数字文化产业的蓬勃发展,尤其是二次元文化渗透出圈,数字内容产业面临新一轮的需求升级,伴随着 5G 商业化进程的不断加深,多元化、精品化的优质数字内容将面临更快的消费节奏,与此同时,供给侧仍存在巨大的产能缺口,数字内容产业正处于劳动密集型向科技密集型的转型阶段。AI 与数字内容产业的深度耦合,将有希望为行业释放更大的科技势能,以 GPT-3、DALL-E 为代表的 AI 技术,已在文本、语音、图像、视频等内容生成中取得了令人惊艳的结果,然而在精确性、泛化性、合理性方面仍然面临挑战,目前的前沿研究一方面探索从模型结构(自动化搜索等),训练形式(无监督对比学习等)等方面提升精度效果;另一方面引入知识图谱领域知识,向机器介绍常识和其他特定领域的知识进而提升常识推理效果。伴随着技术的持续升级演进,我们预见 AI 将逐步在数字内容生成领域释放引擎级的影响力,在内容、平台、技术多方合力引导下,构筑数字内容生成新范式。

6、边缘计算人工智能加速融合

近年来,随着深度学习算法的迅猛发展,计算机视觉自然语言处理、搜索推荐广告等各种领域的任务性能得到不断刷新。同时,随着边缘智能设备的广泛普及和硬件改进,基于深度学习人工智能技术在边缘端应用落地成为了可能。然而,在边缘端上部署深度学习模型具有很大的难度。其主要挑战表现在,边缘端等智能设备在计算、存储、功耗等方面有很大的限制。因此,边缘端模型必须满足低计算复杂度、小模型尺寸、低模型功耗等要求。未来将趋向硬件友好型的剪枝加速。根据边缘硬件的 CPU 类型来设计特定的网络稀疏化模式,适配不同硬件的模型压缩与优化加速技术是未来研究热点趋势。其次,基于自动化的 1-bit 量化方法有上百倍的理论性能提升,因此也是未来研究热点趋势。

7、人工智能内核芯片向类脑神经计算方向演进

人工智能内核芯片已经成为人工智能时代的关键技术之一,在某些领域中的具体任务上人工智能内核芯片能够实现超越人脑的表现,但针对人工智能内核芯片的研究依然落后于人工智能的发展,人工智能内核芯片无法同时满足多种人工智能算法的加速要求,并且面对各种新型人工智能技术不断涌现的局面,人工智能内核芯片与人脑相比其自我学习能力与可扩展性存在明显不足。未来人工智能内核芯片将在结构上更接近人脑的神经构造,获得类神经计算的能力,通过不断整合最新的人工智能技术,定制型人工智能内核芯片将逐渐演变为通用型人工智能内核芯片,在提高自我学习能力的同时,实现对不同人工智能技术在不同任务上的加速计算,从而推动人工智能内核芯片实现真正的落地。

8、算法公平性研究推动 AI 应用走向普惠无偏见

由于数据偏差、算法本身缺陷、甚至是人为偏见的存在,现有 AI 算法普遍存在对于某些特定人群效果不公平的 "歧视性现象"。随着 AI 算法在社会各行业的广泛落地应用,作为辅助人们决策的重要工具,算法的公平性问题正受到越来越多的关注。过去的几年业界已在逐步探索一些针对性的解决方案,包括构建更公正的数据集、算法训练中引入公平性约束损失、提高机器学习算法的可解释性等。但就整体而言,当前公平性研究在精度和公平性的平衡、不同场景的泛化性有效性等问题上正处于方兴未艾的阶段。随着欧盟发布《人工智能白皮书》、《人工智能伦理: 问题和倡议》,中国发布《协同落实人工智能治理原则的行动建议》,人工智能的治理正成为一个愈加热门的议题,而算法的公平性正是人工智能治理的关键问题。我们预见算法公平性的研究将持续深化,在人脸识别等最广泛的 AI 应用领域取得突破,为不同人群带来更加普惠无偏见的效果。

9、隐私保护 AI 落地实用帮助算法可持续进化

人工智能机器学习算法的广泛应用,在为人们提供便利的同时,也带来了极大的隐私泄露风险。这种隐私泄露包括用户数据在授权范围以外被处理共享、机器学习算法训练后存在数据记忆等现象。AI 算法开发中的数据隐私保护问题受到的关注以及监管日益增长,美国于 2020 年生效《加利福利亚消费者隐私法案》,中国于 2020 年公布《个人信息保护法(草案)》。针对机器学习中上述隐私保护问题,研究工作近年来逐步深入走向成熟,发展出了数据匿名化、联邦学习、差分隐私等一系列方法。我们预见能够保护用户数据隐私的更加灵活高效的 AI 学习方法将在金融、医疗、社交等场景实用化落地,消减用户的隐私担忧,帮助 AI 算法在场景中可持续地进化。

10、人工智能技术向安全智能方向迈进

随着人工智能技术在各行各业的广泛应用,滥用或恶意破坏人工智能系统将会给社会带来巨大的负面影响。近年来算法后门攻击、对抗样本攻击、模型窃取攻击等针对人工智能算法的攻击技术持续发展,通过篡改构造特殊数据诱骗人工智能应用产生不可信的错误结果,带来了更大的算法安全风险,因此保障人工智能应用安全可靠的需求日渐迫切。未来人工智能技术将向着安全智能方向持续演化,一方面从算法的可解释性入手提升模型的鲁棒性,另一方面化被动为主动,通过主动安全检测机制对各类攻击进行侦测与拦截,最终实现人工智能可用性与可信性双轨并重的现实需求,推动人工智能技术在更广泛领域的安全落地。

作为腾讯旗下顶级的人工智能实验室,腾讯优图长期坚持基础研究和产业落地两条腿走路,拥有超过 1000 余项 AI 相关国内外专利,300 余篇论文被 CVPR、AAAI、ICCV 等国际顶会收录。在产业落地方面,腾讯优图通过腾讯云持续输出顶尖的视觉 AI 能力,目前已推出超过 30 个行业解决方案。
理论GAITC 2021厦门大学腾讯优图
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

增强现实技术

增强现实,是指透过摄影机影像的位置及角度精算并加上图像分析技术,让屏幕上的虚拟世界能够与现实世界场景进行结合与互动的技术。这种技术于1990年提出。随着随身电子产品运算能力的提升,增强现实的用途也越来越广。

机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

剪枝技术

剪枝顾名思义,就是删去一些不重要的节点,来减小计算或搜索的复杂度。剪枝在很多算法中都有很好的应用,如:决策树,神经网络,搜索算法,数据库的设计等。在决策树和神经网络中,剪枝可以有效缓解过拟合问题并减小计算复杂度;在搜索算法中,可以减小搜索范围,提高搜索效率。

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

边缘计算技术

边缘运算(英语:Edge computing),又译为边缘计算,是一种分散式运算的架构,将应用程序、数据资料与服务的运算,由网络中心节点,移往网络逻辑上的边缘节点来处理。边缘运算将原本完全由中心节点处理大型服务加以分解,切割成更小与更容易管理的部分,分散到边缘节点去处理。边缘节点更接近于用户终端装置,可以加快资料的处理与传送速度,减少延迟。在这种架构下,资料的分析与知识的产生,更接近于数据资料的来源,因此更适合处理大数据。

虚拟现实技术

虚拟现实,简称虚拟技术,也称虚拟环境,是利用电脑模拟产生一个三维空间的虚拟世界,提供用户关于视觉等感官的模拟,让用户感觉仿佛身历其境,可以及时、没有限制地观察三维空间内的事物。用户进行位置移动时,电脑可以立即进行复杂的运算,将精确的三维世界视频传回产生临场感。

超参数技术

在机器学习中,超参数是在学习过程开始之前设置其值的参数。 相反,其他参数的值是通过训练得出的。 不同的模型训练算法需要不同的超参数,一些简单的算法(如普通最小二乘回归)不需要。 给定这些超参数,训练算法从数据中学习参数。相同种类的机器学习模型可能需要不同的超参数来适应不同的数据模式,并且必须对其进行调整以便模型能够最优地解决机器学习问题。 在实际应用中一般需要对超参数进行优化,以找到一个超参数元组(tuple),由这些超参数元组形成一个最优化模型,该模型可以将在给定的独立数据上预定义的损失函数最小化。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

监督学习技术

监督式学习(Supervised learning),是机器学习中的一个方法,可以由标记好的训练集中学到或建立一个模式(函数 / learning model),并依此模式推测新的实例。训练集是由一系列的训练范例组成,每个训练范例则由输入对象(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签(称作分类)。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

对抗样本技术

对抗样本是一类被设计来混淆机器学习器的样本,它们看上去与真实样本的几乎相同(无法用肉眼分辨),但其中噪声的加入却会导致机器学习模型做出错误的分类判断。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
联邦学习技术

如何在保护数据隐私、满足合法合规要求的前提下继续进行机器学习,这部分研究被称为「联邦学习」(Federated Learning)。

通用人工智能技术

通用人工智能(AGI)是具有一般人类智慧,可以执行人类能够执行的任何智力任务的机器智能。通用人工智能是一些人工智能研究的主要目标,也是科幻小说和未来研究中的共同话题。一些研究人员将通用人工智能称为强AI(strong AI)或者完全AI(full AI),或称机器具有执行通用智能行为(general intelligent action)的能力。与弱AI(weak AI)相比,强AI可以尝试执行全方位的人类认知能力。

5G技术

第五代移动通信系统(5th generation mobile networks),简称5G,是4G系统后的延伸。美国时间2018年6月13日,圣地牙哥3GPP会议订下第一个国际5G标准。由于物理波段的限制,5G 的网络也将会与其他通信技术并用,包含长距离的其他传统电信波段。

常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

结构搜索技术

深度学习提供了这样一种承诺:它可以绕过手动特征工程的流程,通过端对端的方式联合学习中间表征与统计模型。 然而,神经网络架构本身通常由专家以艰苦的、一事一议的方式临时设计出来。 神经网络架构搜索(NAS)被誉为一条减轻痛苦之路,它可以自动识别哪些网络优于手工设计的网络。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~