Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

机器之心编辑部机器之心专栏

业界首个!快手提出亿级别多模态短视频百科体系快知

“快知(Kuaipedia)”的提出有助于学界推动 AI 通过多模态信息理解世界知识,且在产业界落地有较大想象空间。

引言

当前,越来越多的短视频用户不仅希望利用碎片化的时间来休闲娱乐,也开始希望能够在短视频平台中获取更多知识。2021 年,快手泛知识内容播放量同比增长 58.11%,平台全年有超过 3300 万场泛知识直播 [1]。为了更好地理解和组织泛知识视频,快手MMU联合哈尔滨工业大学等提出业界首个多模态短视频百科——“快知(Kuaipedia)”:通过多模态和知识图谱技术从海量短视频中挖掘大规模高质量的知识视频,并将其结构化,形成体系化的短视频百科知识库,为用户提供更好的知识获取体验,同时激发创作者创造优质知识内容,构建良性的知识分享生态。

图片

  • 论文链接:https://arxiv.org/abs/2211.00732

  • 项目主页:https://github.com/Kuaipedia/Kuaipedia

团队从快手海量短视频中挖掘出亿级别知识类视频,并对其进行了结构化,构建了千万级词条和知识点视频百科体系。“快知(Kuaipedia)”的提出有助于学界推动 AI 通过多模态信息理解世界知识,且在产业界落地有较大想象空间。

图片

介绍

百科全书(Encyclopedia),可以追溯到希腊和罗马,也是 17-18 世纪法国启蒙运动的一个杰出成果。知识百科通常是指概要介绍人类全部知识或某一特定领域或学科的工具书或纲要,在互联网急速发展的当下,网络百科成为知识新的载体,如维基百科、百度百科等。但这些百科通常以图文、表格为载体,比较难以表达一些需要生动演示的知识,比如教程(How-to)类知识。图一展示了使用图文讲述 “柴犬”-“怎么画” 这一知识的困境。而通过短视频,我们能够很好地对这些知识进行一个阐释和学习。

具体视频见:https://www.gifshow.com/fw/photo/3xhcmzgr9fq492m

图片

图一:图文在 how-to 类知识上知识传递的困境,图文来自短视频的帧截图

随着内容行业和媒体形态的不断迭代,短视频已经越来越成为知识传播者的主要媒介,尤其是在一些技能和特长类的知识传播,天然就有它的一些优势。而在当下,尽管有公开的网络百科中有视频的内容,但通常是偏简介形式(如秒懂百科),没有将短视频最大程度的进行利用,因此短视频在知识百科中的表达能力被严重低估。比如当人们讲到 “柴犬”,人们除了“简介” 以外,还关注“怎么挑”、“怎么梳毛”、“怎么纠正护食” 等。因此我们认为将知识类的短视频结构化,构成结构化的短视频百科是一条理解世界知识、帮助人类以更高效率传播知识的有效途径。

参考国家标准 [2] ,我们将事实(What)、原理(Why)类知识归结为科普知识,技能(How)类归结为教程知识,在快手海量的视频中挖掘出高质的知识视频。此外,我们将短视频中抽取的知识主体以词条形式呈现(如柴犬),并抽取视频中讲解的该词条具体的知识点(如柴犬 - 挑选、柴犬 - 护食纠正等),最终构成了一个短视频的百科知识体系,如图二所示。

图片

图二:“快知”——多模态短视频百科概览

“快知(Kuaipedia)”的提出有以下几个贡献:

1. “快知”的定义:我们开创性地定义了一个全新的多模态知识百科库,以词条、知识点、知识类短视频以及它们间的关系共同构成。这是业界首个结构化的多模态短视频百科。

2. 构建大规模短视频百科的方法:我们提出使用知识视频识别、词条知识点挖掘、多模态知识链接的组合来构建大规模的短视频百科。并开创性提出 “多模态知识链接” 任务,作为传统实体链接的一个外延和扩展。

3. 富有潜力和想象空间的应用:在学术上,“快知”以崭新的知识点短视频化组织形式,能够突破目前机器仅靠图文知识图谱(KG)理解世界知识的上限,在 KG 的一些下游任务如实体链接、实体分类,或者 NLP、CV 等内容理解下游任务上,有非常大的潜力。在产业界,“快知”这样的形式能够助力短视频平台进行高效地运营、组织内容,提升用户对知识的理解与消费效率。

技术概览

为了实现上述的短视频百科结构化,核心技术包括以下三个主要步骤,如图三所示。

1. 知识视频识别:通过多模态视频预训练模型,理解并识别海量视频中知识类视频;

2. 词条和知识点挖掘:通过多源知识库融合 “自顶向下” 构建词条体系,再通过对用户搜索 query 挖掘 “自底向上” 构建词条与知识点关系,形成词条知识点树;

3. 多模态知识链接:创新性地扩展传统 “实体链接” 任务,提出通过多模态内容理解技术将视频链接到词条(如柴犬)的某一个知识点(如护食纠正)上的 “多模态知识链接” 任务。

图片

图三:“快知”构建技术链路

通过大量详实的人工评测,“快知”所挖掘的知识点与视频已具备较高的准确率和质量。

应用

首先,“快知(Kuaipedia)”这样的多模态短视频百科体系,在学术界对于推动 AI 理解世界知识的技术发展有极大的潜力。一方面,“快知”突破图文和表格的局限,通过更丰富的知识点和短视频来描述某一个实体或者概念,这种方式能够推动多模态知识图谱技术的发展。另一方面,这些知识点和短视频有助于 AI 更好地理解世界知识,尤其是一些图文难表述的 How-to 类知识,这种多模态知识能够增强 AI 对世界的理解,对 KG、NLP、CV 等领域的下游应用都很有帮助。我们在 CCKS 实体链指的任务上,证明 “快知” 多模态知识的简单引入就能有效提升 BERT 在实体链接和在实体分类上的性能。

此外,“快知”在产业落地极具想象力,在短视频生态向 “泛知识” 拓展的过程中,现有的形式约束了其传播方式,“快知”通过结构化的内容,能提升平台的运营和分发效率,更好地满足用户的求知诉求。我们将该项技术首先在健康垂类进行了落地尝试,快手健康团队此前以病种为组织维度,纯人工挖掘了一批优质 PUGC 内容,但是存在疾病知识体系不完善、权威性知识视频量级小等痛点,难以高效率构建完整、大规模、结构化的疾病视频体系。利用 “快知” 的技术后,自动化地挖掘出了一批高质量、有快手特色的知识点和知识视频,丰富了疾病类内容,比纯人工构建提效几十倍。目前这批内容已经在快手 App 精选页上线:点击精选视频流中某个疾病类视频的「底部通栏」,唤起「快手健康」半屏页,用户可以消费该视频所属词条下的相关知识点和相关知识视频,如图四所示。

图片

图四:“快知”在健康场景落地

除健康外,“快知”还覆盖了教育、美食、三农、亲子、法律、科技、金融等众多领域的知识内容,有着较大的应用潜力。

结语

面对泛知识类内容在短视频行业的发展前景,我们提出了 “快知(Kuaipedia)” 多模态短视频百科体系,从存量的海量短视频内容入手,通过多模态知识图谱构建技术挖掘出亿级别高质量的知识视频,并将知识内容结构化,构建业界首个大规模体系化的短视频百科知识库,其在学术界和产业界有较大的潜力和想象空间。

作者介绍

第一作者:潘浩杰

图片

快手 MMU 知识图谱中心成员,“快知”项目负责人,本硕毕业于浙大和港科大,曾在阿里云 PAI 负责大规模 NLP 算法与框架,在 ACL、EMNLP、KDD、AIJ 等顶会顶刊中发表 10 余篇论文,多项国内和美国专利,详见知乎。2021 年加入快手。

通讯作者:付瑞吉

图片

快手 MMU 知识图谱中心负责人,本硕博毕业于哈工大,中科大博士后。曾担任科大讯飞 AI 研究院副院长,获吴文俊人工智能科技进步奖一等奖。在 ACL、EMNLP、Coling、IJCAI、TASLP 等国际会议和期刊上发表学术论文多篇,申请(获得)国家发明专利四十余项。2021 年加入快手。

合作老师:刘铭

图片

教授 / 博士生导师,哈尔滨工业大学计算学部。先后主持国家重点研发计划项目课题、国家自然科学基金、中国博士后科学基金特别资助、中国博士后科学基金面上资助一等资助、黑龙江省面上基金等多项基金项目。获黑龙江省科学技术一等奖,哈尔滨市科技成果,第六届全国青年人工智能创新创业大会一等奖。近年来以第一作者或通讯作者发表 CCFA/B 类论文 20 余篇,参编教材一部,英文译著一部。担任 NLPCC2020、CCKS2020、COLING2022 知识图谱领域主席,CCKS2019 出版主席、CCKS2021 评测主席、CCKS2022 讲习班主席。

参考文献

[1] 快手,2022 快手泛知识内容生态报告.

[2] 国家标准委:知识管理框架,GB/T 23703.

理论多模态信息理解快知(Kuaipedia)
相关数据
人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

实体链接技术

在自然语言处理中,实体链接,也称为命名实体链接(NEL)、命名实体消歧(NED)。实体链接的任务是为文本中提到的实体(例如着名的个人,地点或公司)分配唯一的身份。

推荐文章
暂无评论
暂无评论~