Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部报道

腾讯类ChatGPT保密项目爆出,张正友带队研发「混元助手」

自 ChatGPT 爆火之后,国内众多科技大厂都纷纷跟进,宣布类 ChatGPT 产品研发计划。其中 2 月 9 日,腾讯表示在相关方向上已有布局,专项研究也在有序推进。

我们知道,腾讯在大模型领域的布局早已有之,其「混元」系列 AI 大模型覆盖了 NLP、CV、多模态等基础大模型以及众多行业 / 领域大模型。这成为了腾讯构建类 ChatGPT 产品的坚实技术储备。

昨日,据 36 氪旗下「 职场 Bonus」的报道,腾讯类 ChatGPT 对话式产品项目组终于露面 —— 腾讯混元助手项目组(HunyuanAide)。据悉,该项目组将联合腾讯内部多方团队构建大参数语言模型,其目标是「通过性能稳定的强化学习算法训练,完善腾讯智能助手工具,打造腾讯智能大助手,并能成为国内的业界标杆」。

职场 Bonus 详细列出了腾讯混元助手项目组的项目 Owner(1 名)项目 PM(3 名)项目组长(7 名)项目 Sponsor(7 名)。其中腾讯首席科学家、腾讯 AI Lab 及 Robotics X 实验室主任张正友博士是腾讯首位 17 级研究员 / 杰出科学家。PM 之一俞栋腾讯 AI Lab 副主任、语音识别深度学习领域的专家、IEEE/ACM Fellow。
图片图源:职场 Bonus

腾讯混元 AI 大模型

随着大模型成为 AI 开发新范式,国内很多科技大厂都已入局,腾讯也不例外。2022 年 4 月,腾讯首次披露了混元 AI 大模型研发进展,先后在 MSR-VTT、MSVD、LSMDC、DiDeMo 和 ActivityNet 五大最具权威的跨模态视频检索数据集榜单中取得第一名,实现跨模态检索领域的大满贯。

图片

当月,腾讯混元 AI 大模型又在中文语言理解评测基准 CLUE 分类榜中取得第一名,分数突破了 80.000 分,接近人类语言理解能力,刷新该榜单历史记录。这是混元 AI 大模型在斩获跨模态检索榜单大满贯后,取得的又一突破性进展,展现了该模型在自然语言处理上的实力。

图片

2022 年 5 月,腾讯混元 AI 大模型在 CLUE 总排行榜、阅读理解、大规模知识图谱三个榜单同时登顶,一举打破三项纪录。据了解,CLUE 总榜由分类任务和阅读理解任务构成。腾讯混元 AI 大模型在一个月内先后实现分类任务、阅读理解双佳绩,最终以 84.730 的成绩取得总榜第一。

图片

之后混元 AI 大模型又在多模态理解领域国际权威榜单 VCR(Visual Commonsense Reasoning,视觉常识推理)中登顶,两个单项成绩和总成绩均位列第一。这是继在跨模态检索领域实现大满贯、CLUE 自然语言理解分类榜及 CLUE 总榜登顶后,混元 AI 大模型的又一重大突破,展现了其在多模态理解领域的强大实力。

2022 年 12 月,腾讯混元又迎来全新进展,推出国内首个低成本、可落地的万亿 NLP 大模型,并再次登顶 CLUE。

目前,混元 AI 大模型已经广泛应用于腾讯微信搜索、腾讯广告等业务场景,提升了搜索体验和广告推荐精准度。随着研究的进一步完善和业务实践的不断深入,未来将赋能更多业务场景,帮助精准理解用户需求,更好地服务用户。腾讯混元 AI 大模型的跨模态、多模态能力也成为了开发类 ChatGPT—— 混元助手的重要基础。

不久之前,字节跳动也被爆出将加入「大模型之战」,分别在语言和图像两种模态上发力。据 36 氪的报道,语言大模型团队由字节搜索部门牵头,目前团队规模在十数人左右。图片大模型团队则由产品研发与工程架构部下属的智能创作团队牵头。

如今看来,国内众多科技公司都在蓄力,为大模型之战做准备。

在不久之后,我们也许就能看到各家推出自己的相关产品了。

参考链接:https://mp.weixin.qq.com/s/rdpGZII3pu3MHr-lFm3GyQ
产业混元助手类ChatGPT腾讯
1
相关数据
字节跳动机构

北京字节跳动科技有限公司成立于2012年,是最早将人工智能应用于移动互联网场景的科技企业之一,是中国北京的一家信息科技公司,地址位于北京市海淀区知春路甲48号。其独立研发的“今日头条”客户端,通过海量信息采集、深度数据挖掘和用户行为分析,为用户智能推荐个性化信息,从而开创了一种全新的新闻阅读模式

https://bytedance.com
俞栋人物

俞栋,语音识别与深度学习领域的专家,现任腾讯AI Lab(人工智能实验室)副主任。俞栋曾在语音识别领域出版了两本专著并发表过大量论文,也是60项专利的发明人及深度学习开源软件CNTK的发起人和主要作者之一。

相关技术
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

自然语言理解技术

自然语言理解是人工智能的核心课题之一,也被广泛认为是最困难和最具标志性的任务。最经典的两个人工智能思想实验——图灵测试和中文房间,都是围绕自然语言理解来构建的。自然语言理解在人工智能技术体系中的重要性不言而喻,它一方面承载着机器和人的交流,另一方面直达知识和逻辑。自然语言理解也是人工智能学者孜孜以求的圣杯,机器学习的巨擘 Michael I. Jordan 就曾经在 Reddit 上的 AMA(Ask Me Anything)栏目中畅想用十亿美元建立一个专门用于自然语言理解的实验室。

基准技术

一种简单的模型或启发法,用作比较模型效果时的参考点。基准有助于模型开发者针对特定问题量化最低预期效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

强化学习技术

强化学习是一种试错方法,其目标是让软件智能体在特定环境中能够采取回报最大化的行为。强化学习在马尔可夫决策过程环境中主要使用的技术是动态规划(Dynamic Programming)。流行的强化学习方法包括自适应动态规划(ADP)、时间差分(TD)学习、状态-动作-回报-状态-动作(SARSA)算法、Q 学习、深度强化学习(DQN);其应用包括下棋类游戏、机器人控制和工作调度等。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
常识推理技术

常识推理是人工智能(AI)的一个分支,它关注模拟人类每天遇到的普通情境的类型和本质的假设。这些假设包括对人和物体的物理特性,目的,意图和行为的判断,以及他们的行为和相互作用的可能结果。展示常识推理的设备将能够预测结果并得出类似于人类民间心理学(人类对人们的行为和意图进行推理的天生能力)和天真物理学(人类对物理世界的自然理解)的结论。

跨模态检索技术

指融合不同模态进行检索,通过利用不同模态的互补信息达到提高检索准确率的目的。跨模态数据呈现底层特征异构 、高层语义相关的特点。如何表示底层特征 、怎样对高层语义建模以及如何对模态间的关联建模 ,这些都是跨模态检索面临的挑战。

视频检索技术

视频检索的目的是给定一个文本查询和一个候选视频池,选择与文本查询相对应的视频。

推荐文章
暂无评论
暂无评论~