Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

张倩原创

2022稳居C位的AIGC,到底有什么用?

如果总结 2022 年十大技术趋势,AIGC(AI-Generated Content)一定能稳站一席。

一方面,市场融资火爆,AIGC 创业公司 Jasper. AI、Stability AI 都分别获得了超 1 亿美元的融资,资本都在盯着这个具有想象空间的赛道。

另一方面,技术呈现扩圈之姿,尤其在绘画领域,一幅名为《太空歌剧院》的 AI 画作甚至拿到了美国科罗拉多州博览会艺术比赛的一等奖。

图片

AI画作《太空歌剧院》

但沉下心来观察这个赛道会发现这样的境况:AIGC 离产业应用有点远。一些人会将生成式 AI 出色的表现与元宇宙等热门概念联系到一起,认为 AIGC 即将成为构建元宇宙的重要工具,彻底变革人类的生活方式,这一愿景为一些背靠生成式 AI 大模型的初创公司带来了大笔融资,但距离落地成真还有一段时间。

生成式 AI 落地真的还有一段时间吗?对于手握精尖技术去找应用、找落地的企业或许是这样的,但对于已经在产业中摸爬滚打了 20 余年的京东来说,从 2017 年喊出“技术!技术!技术!”,到用 AI 技术武装自身业务,再到把反复历练的产业 AI 能力通过京东云对外输出服务产业,京东将 AI 能力渗透到了产业的毛细血管里,润物细无声般走进了百姓的生活,比如,当前应用最广泛的就是交互数字人。

这是京东云推出的言犀虚拟数字人主播,高性价比和不错的交互体验,让 TA 获得了众多商家的青睐。在双十一期间,言犀虚拟数字人服务近 200 家付费品牌,带来数百万 GMV 转化。

从技术视角来看,当前数字人是 AIGC 技术的集大成者,包含了生成图片、语言、音频、视频和 3D 等等。

从产业视角来看,在京东内部或许没有 AIGC 这样一个 “时髦” 的称呼,但在日常业务中,他们早就开始用技术帮助商家生成商品文案、对话文本、外呼语音…… 现在还能生成数字人帮商家卖货,其应用范围贯穿京东的整个数智供应链。同时,他们的各种 AIGC 模型也从这条供应链上 “学习” 新的东西,把更好的技术、服务向外输出,让我们看到了这套技术更贴近产业的一面。

与数智供应链深度耦合的 AIGC

AIGC 并不是一个新概念,其萌芽阶段可以追溯到上世纪 50 年代,90 年代从实验性向实用性逐渐转变。从 2014 年起,随着以生成对抗网络(GAN)为代表的深度学习算法的提出和迭代更新,AIGC 迎来了新时代,生成内容百花齐放,效果逐渐逼真直至人类难以分辨。2018 年,AI 生成的画作以 43.25 万美元的价格被成功拍卖,引发各界关注。

彼时,在京东 AI 团队的研究中,AI 作画已不是新鲜事,他们的研究涉及多模态、大模型等方面的基础研究以及 AI 写诗、AI 生成文案、AI 画图、AI 写书法等一些实用性研究,为之后的 AIGC 产品问世打下了基础。其中一篇典型论文成果 AttnGAN 引用过 1000 多次,是 AIGC 领域的经典工作之一。

图片

AttnGAN 生成结果示例。

但同时,京东也意识到,如果真的想用这些 AIGC 技术变革行业,仅靠研究是不够的,还需要结合业务实际来解决一些工程化难点。于是,从 2019 年开始,生成式 AI 如何一头扎进京东的多个供应链环节成了团队的第一要务。

供应链是一个极端复杂的、上下贯通的、跟千行百业都息息相关的实体链条,小至快消品、3C 电子、服装,大至汽车、高铁、飞机制造…… 只要有生产,有流转,有消费,就有供应链。作为一家以供应链技术和服务为底层逻辑、拥有复杂供应链场景的新型实体企业,京东在数智供应链中酝酿以 AIGC、语音识别、语义理解等为代表的产业 AI 能力,然后再通过与产业的深度融合,释放其 “生万物” 的潜力,其价值无疑是巨大的。但在此之前,他们必须先解决这些 AIGC 模型在供应链各环节的应用效果和效率的问题。

比如,语音生成的难点在于如何让生成的语音更像真人,传统的 TTS(语音合成)技术往往会因为缺乏环境音和语调、重音、情绪方面的变化而让人感觉不真实。

京东语音算法负责人张政臣介绍,这种不真实在一定程度上是由训练数据造成的,因为当前的大部分语音数据是在录音棚里录的,导致生成结果偏播音主持场景,用到直播等场景中就不太合适。

因此,京东的语音团队首先考虑从语料入手来解决这个问题,这也是京东庞大供应链的优势所在:这条数智化供应链每天都会产生大量真实场景的对话,既有客服的也有主播的,拿这些语料训练出的语音模型生成结果明显要更加自然。此外,他们也用了一些技术性的方法,比如对于某些语气词、声音的韵律变化单独建模和控制。 

当然,也有很多客户会提出使用真人录音的需求,同时又要往里面加入一些变量,比如把一段外呼录音中的地点由 “经海路” 改成 “科创街” 或其他几百个不同的地址。由于录音成本很高,被改动的变量是需要用技术来合成的,同时又要保证合成的声音和原有的录音无缝衔接,听不出差别。

得益于多年来利用供应链数据训练出的大型基线模型,京东的语音团队现在已经能够以一种低成本的方式解决这个问题,只需要少量的数据(比如录音师的十几句话)就能实现个性化的 TTS,达到之前需要很多训练数据才能达到的效果。

文本生成最大的问题是“可控性”,即想办法让模型生成我们想要的内容。

“我们早期的模型可以生成很流畅的文本,但是很多时候我们发现,可控这件事并没有得到很好的解决,大家还是沉浸于生成超出想象的、天马行空的内容。但是在真正的产业应用中,(模型)必须可解释、可控。”京东 NLP 算法工程师李浩然回忆说。

具体到言犀虚拟数字人这样的商品营销文案自动生成,“可控”就意味着模型生成的文本必须满足可读性(Readability)、忠实性(Faithfulness)、信息性(Informativeness)等几个要求,长文本(比如直播剧本)还要具备多样性(Diversity)和篇章连贯性(Coherence)。京东 NLP 团队提出的基于领域知识增强的预训练语言模型 K-PLUG 就是用来解决这些问题的。

在 K-PLUG 诞生之前,一些通用的预训练语言模型也可以用来生成商品文案,但在商品卖点的独特性等方面仍有所欠缺,比如下面这段油烟机的文案:

图片

为了让模型更精通电商场景,K-PLUG 首先会定义电商领域的领域知识,包括商品的知识图谱、要素知识、类别知识以及卖点知识,然后针对这些不同的知识去设计不同的下游任务。有了这些知识,模型就学会了如何去 “阅读” 商家给的商品说明材料以及去哪儿找规格、卖点等信息,然后通过 “Only Copy” 的机制将一些关键信息复制到生成文本中。

更重要的是,这里用到的电商知识是京东供应链已经积累了很多年的,覆盖超过 1000 万种自营商品。有了这些知识做基础,K-PLUG 仅用 1 亿参数量(约为 Google T5 的三分之一)就超过了 Google T5 的商品文案生成效果,而且因为体积小,更容易在业务中部署,实用性非常强。

据统计,基于 K-PLUG 的商品文案生成模型已经覆盖了京东的 3000 多个三级品类,累计生成文案 30 亿字,应用于京东发现好货频道、搭配购、AI 直播带货等,累计带来超过 3 亿元 GMV。

目前,京东的 NLP 团队还在进一步优化 K-PLUG 的长文本生成效果,以适应直播剧本撰写等长文本场景。据悉,他们将尝试利用京东平台上现有的大量长文本以及领域知识来训练更大的模型,使其生成的文本句与句之间更加有逻辑

当然,未来的这个模型也不会很大(参数量约为 10 亿),因为在使用时,大模型带来的价值和成本有一个平衡点,在关注如何训练超大规模参数模型、提高模型通用性的同时,京东更关注大模型在供应链各环节的应用效果。

“我们(在做业务的时候)并没有追求千亿级、万亿级的生成式大模型,因为它们在实际应用的时候会有多方面的问题,比如对服务器要求很高,这样的模型在很多场景下可能都用不起来,所以我们会从效率的角度去做模型的设计。在有些场景下,即使是 10 亿参数的模型,我们也会通过蒸馏、量化的方式让它进一步提升效率,减少对服务器配置的要求。很多时候,我们的推理(理解或生成)模型既支持 GPU 的部署环境,也支持 CPU 的部署环境。”京东集团高级算法总监吴友政解释说。

“融”生万物,向“实”而升

经过几年的发展,当前的 AIGC 算法已经具备了真实复刻和创造某类既定内容的能力,同时相关模型对简单场景的内容生成也取得了比较好的成果。但面对产业供应链中多样性变化和复杂场景内容生成的挑战,现有 AIGC 的算法能力仍需进一步提升。

举例来说,当前的算法已经可以应对高清人脸和数字人头像的生成,但在动画视频内容的生成上仍然稍显乏力,因为后者的动态复杂性和可能性的复杂程度以几何倍数增长。

“这意味着我们现在的算法其实已经不再是单点迭代,而是多种算法互相之间联合优化,变成一种系统级的优化。”京东集团副总裁、智能产品与服务部总裁何晓冬坦言。

他回忆道,以前做 AI 算法的时候会局限于怎么做一个单点,比如语音识别、图像识别,包括把这个单点的能力上云,让别人调用。但从供应链的角度来看,很多技术要在链条里面产生价值,就必然是融合性的。

这种 “融合” 不仅是不同模态的技术(语音、文本、图像等)之间的融合,也包括技术与各行各业的特异性场景的深度融合。

当然,融合的前提是前期有比较全面的积累,而这正是京东云做 AIGC 的优势所在:京东自身的供应链环节就足够多,足够复杂,每天都会提出很多新的挑战,这帮助他们摆脱了单点技术思维,更多地从产业需求的角度去看这些技术,对每个方向都做更全面的思考和更深刻的理解。

这种融合性的做事方法已经帮助京东云在 “生万物” 的道路上迈出了很大的一步,除了常规的对话生成文本生成、语音生成等应用外,京东云还会用融合性的 AIGC 去做数字人生成和数字孪生

图片

由实而生,向实而升。京东是实体经济高质量发展的见证者,更是深度的参与者。目前,他们正通过京东云向千行百业释放自己的 AIGC 能力,这些能力降低了内容制作分发门槛,让更多的中小企业可以参与到数字经济中来,进而实现数字化转型,这是实现产业升级的关键一步。

以实助实、增强实体经济活力的效果,这既是 AIGC 的机会所在,也是京东云做 AIGC 的使命所在。

参考链接:

https://ieeexplore.ieee.org/document/8578241

http://www.caict.ac.cn/kxyj/qwfb/bps/202209/P020220902534520798735.pdf

https://zhuanlan.zhihu.com/p/530855309

产业京东AIGC
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

逻辑技术

人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

生成模型技术

在概率统计理论中, 生成模型是指能够随机生成观测数据的模型,尤其是在给定某些隐含参数的条件下。 它给观测值和标注数据序列指定一个联合概率分布。 在机器学习中,生成模型可以用来直接对数据建模(例如根据某个变量的概率密度函数进行数据采样),也可以用来建立变量间的条件概率分布。

生成对抗网络技术

生成对抗网络是一种无监督学习方法,是一种通过用对抗网络来训练生成模型的架构。它由两个网络组成:用来拟合数据分布的生成网络G,和用来判断输入是否“真实”的判别网络D。在训练过程中,生成网络-G通过接受一个随机的噪声来尽量模仿训练集中的真实图片去“欺骗”D,而D则尽可能的分辨真实数据和生成网络的输出,从而形成两个网络的博弈过程。理想的情况下,博弈的结果会得到一个可以“以假乱真”的生成模型。

参数模型技术

在统计学中,参数模型是可以使用有限数量的参数来描述的分布类型。 这些参数通常被收集在一起以形成单个k维参数矢量θ=(θ1,θ2,...,θk)。

语言模型技术

语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。由于字词与句子都是任意组合的长度,因此在训练过的语言模型中会出现未曾出现的字串(资料稀疏的问题),也使得在语料库中估算字串的机率变得很困难,这也是要使用近似的平滑n元语法(N-gram)模型之原因。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com
相关技术
文本生成技术

文本生成是生成文本的任务,其目的是使人类书写文本难以区分。

数字孪生技术

数字孪生(*Digital twin*)指可用于各种目的物理资产(物理孪生,physical twin)、过程、人员、场所、系统和设备的数字副本。

Infor机构

Infor是一家跨国企业软件公司,总部设在美国纽约市。Infor专注于通过云计算作为服务交付给组织的业务应用。最初专注于从财务系统和企业资源规划(ERP)到供应链和客户关系管理的软件, Infor在2010年开始专注于工业利基市场的软件,以及用户友好的软件设计。Infor通过Amazon Web Services和各种开源软件平台部署云应用。

www.infor.com
相关技术
生成对抗技术

生成对抗是训练生成对抗网络时,两个神经网络相互博弈的过程。两个网络相互对抗、不断调整参数,最终目的是使判别网络无法判断生成网络的输出结果是否真实。

对话生成技术

对话生成是能经由对话或文字进行交谈的计算机程序任务。能够模拟人类对话,通常以通过图灵测试为评估标准。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

推荐文章
暂无评论
暂无评论~