Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

京东大模型:「知识」就是力量

技术的产业导向,也是落地的产业向导

火热了半年多,大模型领域的格局,总算清晰了一些。

如果你还有印象,在 2022 年 12 月 ChatGPT 爆火之后,国内的科技公司说得最多的是「成为中国的 OpenAI」、「打造中国版 ChatGPT」。抢发大模型,曾经是第一要务。

流畅的多轮对话、丰富的通用知识问答。大模型到底是具备「超级能力」,还是因为其训练语料足够丰富而使得模型仅仅是「记忆」这些内容?

随着领域内对大模型技术路径的认知不断加深,大模型的深层价值开始被挖掘,人们发现它应该走到实体产业中,走进传统行业,影响到生产力的方方面面,但规模化落地设想遇到的挑战也迅速显现。

在 2023 京东全球科技探索者大会暨京东云峰会上,京东推出了面向产业的言犀大模型和言犀 AI 开发计算平台,大踏步走向产业。


「技术的产业导向,也是落地的产业向导」

「产业化最后一公里的问题,看起来好像不大,却是决定大模型能用不能用的边界。」埋首于产业实践中的科学家们感受最深。

真正的产业需求与前沿技术之间,往往存在一条很难跨越的沟壑。对于这个问题,京东感受到的时间可能比其他科技公司都早。

京东探索研究院院长、京东科技智能服务与产品部总裁何晓冬博士说,「如果只是拿着刷榜的技术去秀,而没有考虑真实用户需求,那么用起来就肯定会碰到各种各样的问题。一旦对使用者来说不可用,再怎么说也觉得技术不行」。

从一开始,京东对 AI 技术的探索就带有明显的「产业导向」特色。

与其他科技互联网公司相比,京东的实体属性更强,具有庞大而又复杂的产业生态,和复杂、动态、鲜活等领域数据。因此,京东持续投入的产业 AI 面向的也多是知识增强、任务型的场景,需要解决真实世界深度复杂的问题。这些广泛的实体业务与数据优势也奠定了京东成为 AI 产业落地的前沿阵地。

「我们在组建 AI 研究院的时候就有一个理念:百分之八十由产品和行业落地应用来驱动,百分之二十的研究是面向未来。」何晓冬表示,「一直以来,京东的对外开放的 AI 能力都是由自身业务锤炼而成的,并通过京东场景充分的验证与实践。」

这也应证了他在 2023 京东全球科技探索者大会暨京东云峰会上提出的京东大模型「三步走」路径。


在这种产业驱动的技术探索中,京东在 2020 年就关注到大语言模型技术可能带来的应用价值,但同时也发现了它和产业落地之间还存在相当一段距离。

语言模型的成功,可以追溯到 2018 年 Transformer 架构在自然语言处理领域的突破。当参数量越来越高,大模型的能力开始「涌现」。AI 开始变成了我们想象的样子,甚至展现出超出想象的「智能」。

ChatGPT 的成功,意味着大语言模型已经完成了「从技术到产品」的关键一步,其通用能力得到证明。而下一步「从产品到落地」,却并不比上一步来得容易。

首先就是模型的「内容准确度」问题。在电商领域,京东很早就在尝试将大语言模型用于推荐、新品介绍等内容生成,但很快感觉到大语言模型直接生成的文案、文字和报告在商用场景不可行。由于大模型的底层架构是「预测下一个 token」,导致其容易产生「幻觉」,给出事实上不正确的陈述。

这是现在大部分生成式 AI 产品都或多或少存在的问题,即使生成式语言模型生成的内容正确率能够达到 83%、85% 左右,但这在可靠性要求较高的、严肃的任务型场景中,还远远不够。这导致许多企业对于在业务流程中使用大模型这件事抱有谨慎态度,也是 ToC 场景和 ToB 场景技术落地之间的天然差距。

其次,在大模型进入具体行业之前,还有「知识深度」的问题要解决。在知识图谱和预训练模型融合方面,主要存在三个技术上的挑战:结构化的知识图谱与擅长非结构化的预训练模型结合的问题;文本和知识图谱嵌入在特征空间上的对齐问题;知识噪声的问题。

关于对齐,曾有媒体追问「是在语义层面对齐,还是数据层面对齐?」何博士的观点是,在语义层面,或者更低。

此外还有「安全可控」「迭代效率」两个问题。

大模型输出中的信息泄露情况频发,尚未做到完全可控。

同时,如何突破算力瓶颈,提高资源效能,提升模型迭代升级效率,降低训练及使用成本,也是大模型走入落地阶段的必答题。

对于企业来说,还有部署成本的问题。

大模型参数的爆炸式增长带来了能力的涌现,也意味着训练、推理、部署成本的成倍增加。模型越大,架构越复杂,对于企业来说就更难直接调用做部署。

何晓冬表示:「在与客户的交流中,我们发现很多企业还是需要一个拿来就能用的东西。调用 API,有时也是企业不可承受的技术操作成本。」


所以,不做单纯的大模型商店,不去做一个单纯提供模型训练、推理服务的 MaaS 平台,而是提供端到端的产品服务,这些决定都是京东深思熟虑的结果。

「大模型不是一天之内训练成的」

任何大模型都不是一天之内训练出来的。

「数据大小解决知识丰富度问题,容量大小解决功能性问题」。在不断深化的产业实践验证中,京东大模型的规模也完成了从十亿、百亿到千亿参数的进化。


起跑早的京东当然也更早的遇到了上面所说的落地问题。

2021 年,针对大语言模型内容生成专业度、忠实度、可靠度不足的问题,京东在业内首创了将领域知识注入大模型的方法,提出十亿级自研领域模型「K-PLUG」。


K-PLUG 模型与电商场景紧密结合,基于零售行业深刻的产业 Know-How,大幅改善了此前 AI 生成长文本任务中文本多样性、篇章连贯性,以及在商品卖点文案的生成中尤其需要关注的卖点独特性、属性一致性。

2022 年,针对模型泛化性不足的问题,京东又提出了百亿级 Vega 模型。之后,团队在通用语言理解基础模型方面对织女大模型进行再升级,提出规模更大、性能更强、迁移性更好的 Vega v2 模型。

GPT-4 将多模态带进大模型,进一步拓展了大模型的能力边界。而基于业务应用需求,京东很早就关注到了多模态的价值,在这一技术领域已布局多年。

2018 年,何晓冬带领团队在 CVPR 发表了一项重要研究,他们提出了「Bottom-up and top-down」注意力机制,用于跨模态的语言和图像信息在语义层次的对齐研究。过去五年,CVPR 会议发表的所有论文中,「Bottom-up」这篇论文排名前二十。而排名前二十的论文中,只有「Bottom-up」这一篇是有关多模态的,这篇论文迄今已有超过 5000 次的引用。


论文发布的那年,何晓冬博士团队用文生图算法(AttnGAN)生成了一张小鸟「照片」。那是一只红羽毛白肚子的短嘴小鸟,胖憨可爱,加上两道黑粗剑眉,神似风靡全球的游戏「愤怒小鸟」里的主角。这是他们在「多模态」任务中阶段性的成果。

「不只是我的团队做大模型要走多模态这一条路,其他团队也得走这条路。」,何晓冬博士强调。

随着 GPT4.0 的发布,越来越多的企业将视角投向了多模态大模型。

而自 2018 年起,京东云已经将言犀的能力积极推向跨越语音、视觉等多模态的应用。例如,在言犀的加持下,京东多模态数字人已落地到零售、金融、政务等广泛的应用场景中,且交互体验大幅提升。今年 618 期间,言犀虚拟主播开播商家较去年 11.11 增幅超 5 倍,带动商家 GMV 增长较去年 11.11 增幅超 246%,大幅为品牌直播间降本提效。

京东


今年 2023 京东全球科技探索者大会暨京东云峰会上全面升级的言犀智能服务,只需要提供少量样本素材和 5 分钟的简易拍摄,言犀数字人大模型就能提供全链路内容自动生成,还支持生成侧脸 / 走动 / 手势这些大姿态和动态局部高清与语义驱动的肢体动作编排。

「知识就是力量 让大模型拥有知识」

当通用智能向前进发,多模态认知智能十分关键。

如果人工智能识别做的只是比对,缺少信息进入「大脑」之后的「加工、理解、思考 」。那仅仅是「感知」,而并非「认知」。要让 AI 有类似大脑的活动,走到认知阶段,需要让它掌握知识、进行推理。

比较之前的感知智能,认知智能进入到一个学习曲线更加陡峭,也就是说,更加艰难的学习过程里。Scientia potentia est(知识就是力量),弗朗西斯・培根如是说。

机器人学家罗德尼・布鲁克斯梦想造出能在现实世界中执行有用任务的机器人,在他的理论体系中,他确信人工智能要取得有意义的进步,只能通过与现实世界中的系统交互来实现。并且认为,智慧是一种「涌现」性质,来源于实体与它所处环境发生的各种交互作用。

现在,大模型通过海量数据的训练,实现了布鲁克斯期待的「涌现」。

对于任何大模型来说,只有通过大量的人类反馈的交互数据,效果才能越来越好。

具体到复杂的产业创新应用上,更需要「活的」ToB 场景数据,即动态而非静态的数据,这很难在互联网上获取,自身没有相应的场景也无法让数据「活」起来。

有一个常见误区, 「垂直产业模型比通用域大模型简单」,但实际上产业大模型是在通用域大模型的基础上做的知识增强,垂直的产业模型必须拥有基础的常识和意图理解能力,它是通用域大模型的进阶版。其次,通用域大模型更关注常识性问题的回答和生成等任务,产业大模型则更关注产业效率的提升。这两个方面,都是京东的强项。

何晓冬博士说,在言犀大模型的数据构成中,70% 为公域数据,30% 为京东数智供应链的原生数据。并在训练过程中,不断通过用户反馈强化模型对产业的认知,持续不断进行效果迭代。

整个京东每年产生的动态交互数据加起来有数百亿之多。以智能客服领域为例,每天提供 1000 万智能客户服务,每月 200 万小时通话语音,今年京东 618 期间累计服务超 7 亿次。

除了语音,京东还有有商品图片、安装指南视频、用户评论 & 问答…… 京东全量智能服务的技术经验,加上在京东零售、物流、健康等多类业务的多年实践,体量做到了日均千万次智能交互。这种长链路、复杂协同、更多动态数据回流形成正反馈的京东场景,是多模态大模型的最好练兵场。

「某种意义上,我们相当于既做了通识教育,又读了四年专业性的本科教育。」何晓冬表示。

写在最后

产业大模型「开考」在即,在这场考验中,我们发现京东已经先行进入了下一阶段的赛程。

「狗粮要自己先试一下」,即使业内普遍关注如何训练超大规模参数的模型、提高模型的通用性,京东始终更看重的也是大模型在供应链各环节的应用效果。技术总要先经过内部使用,效果达到后再开放给合作伙伴。

详细拆解京东为言犀大模型规划的三步走路径:第一步,推出京东言犀大模型的基座模型与「言犀 AI 开发计算平台」;第二步:内部实践,将模型反复迭代测试,应用于京东内部核心业务并形成最佳实践,针对一些重点场景的标杆客戶进行对外服务;第三步:针对金融、政务、健康等京东域外重点产业场景全面开放大模型能力,产生技术普惠价值,助力实体经济。

基于言犀大模型解耦出的底层能力,京东推出了「言犀 AI 开发计算平台」。在昨天的大会现场,我们也看到了言犀 AI 开发计算平台的演示:

京东

平台内含零售、物流、健康等十余个行业知识库,提供了百余种训练和推理优化工具和更加高效的大模型开发环境,支持以少量企业数据精调出专属模型,将整个迭代效率提升了 10 倍以上。

比如金融营销场景,大模型解决了诸如关键性任务,动态适应性、用户体验等问题,大幅优化了营销运营流程,降低运营人员的学习成本与操作成本,实现方案生产效率上百倍提高。

过去涉及产品 / 研发 / 算法 / 设计 / 分析师等 5 类以上职能才能完成的流程,现在 1 人就能完成。同时,以一个入口的全新交互模式,让人机交互次数从 2000 次降低至少于 50 次,操作效率却能提升超过 40 倍。

回望这半年,大模型确实带来了全新的智能交互与内容生成能力,引燃了生产力的变革。言犀大模型的发布,是大模型落地产业的新起点,但并不意味着京东对大模型技术路线探索的终点。

因为真实而复杂的产业场景中不只有语言,还有语音、视觉。在产业场景中跑得通的大模型,绝不能只是精通「语言」。大模型的下一步,一定是走向多模态和具身智能,而且是面向真实世界、产业原生的大模型。

正如何晓冬博士在演讲最后指出的,当前多模态融合还相对浅层,主要是通过一个模型调用另一个模态。如果想达到深层的涌现智能,必须进行深层次融合,真正做到多模态的通用大模型,才能够说 AGI 实现了。

在这个过程中,实体产业场景将给模型提出更多难题,一如当年 Transformer 的「胡言乱语」。

但在未来的某一天,多模态领域也一定会迎来自己的「ChatGPT 时刻」,人类终将打开通往 AGI 的大门。
产业言犀大模型京东
相关数据
感知技术

知觉或感知是外界刺激作用于感官时,脑对外界的整体的看法和理解,为我们对外界的感官信息进行组织和解释。在认知科学中,也可看作一组程序,包括获取信息、理解信息、筛选信息、组织信息。与感觉不同,知觉反映的是由对象的各样属性及关系构成的整体。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

学习曲线技术

在机器学习领域,学习曲线通常是表现学习准确率随着训练次数/时长/数据量的增长而变化的曲线

规划技术

人工智能领域的「规划」通常是指智能体执行的任务/动作的自动规划和调度,其目的是进行资源的优化。常见的规划方法包括经典规划(Classical Planning)、分层任务网络(HTN)和 logistics 规划。

注意力机制技术

我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东零售、京东物流、京东科技子集团、印尼&泰国海外合资跨境电商等核心业务。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作。

https://www.jd.com
相关技术
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

知识图谱嵌入技术

知识图谱嵌入(Knowledge Graph Embedding,KGE)是将包含实体和关系的知识图谱的组成部分嵌入到连续向量空间中,在保持知识图谱固有结构的同时简化操作。

推荐文章
暂无评论
暂无评论~