亿级搜索系统的基石,如何保障实时数据质量?

阿里妹导读:突然而至的疫情,让线下娱乐几乎停摆。全国人民对于线上娱乐需求激增,在家追剧、在家上课、在家互动,还要时刻关注疫情动态。每时每刻,都有海量用户在优酷搜索自己想看的内容。千万级别的视频量,几十亿级别的信息量,如何能做到将信息及时有效的透出给用户?怎样保障数据准确无误的呈现呢?

阿里文娱有专门的搜索引擎算法团队做相关的探索。可你知道吗?在算法业务背后,面对数亿的视频数据,还有一支技艺高超的测试团队,在保障庞大数据系统的数据质量。

阿里文娱测试开发专家熙闫将通过本文讲述阿里文娱是如何构建实时数据质量保障体系,进而提升搜索引擎数据全面、快速、准确效果的,希望对大家有启发。

一、背景

优酷视频搜索是文娱分发场的最核心入口之一,数据源多、业务逻辑复杂,尤其是实时系统的质量保障是一个巨大挑战。如何保障数据质量,如何衡量数据变化对业务的影响?本文会做详细解答。

二、现状分析

搜索数据流程如下图所示,从内容生产到生成索引经历了复杂的数据处理流程,中间表多达千余张,实时数据消费即消失,难以追踪和复现。

从上图可以看出,整个系统以实时流模式为数据流通主体,业务层面按实体类型打平,入口统一分层解耦,极大的增加了业务的实时性和稳定性。但是另一方面,这种庞大的流式计算和数据业务系统给质量保障带来了巨大的挑战,从0到1建设实时数据的质量保障体系,同时保证数据对搜索引擎业务的平滑过渡是我们面临的考验。

三、实时数据质量保障体系方案

质量保障需要透过现象看本质。通过对架构和业务的分析,可以发现整个流式计算的业务系统有几个关键点:流式计算、数据服务、全链路、数据业务(包括搜索引擎的索引和摘要)。整体的质量诉求可以归类为:

  1. 基础数据内容质量的保障
  2. 流式链路的数据正确性和及时性保障
  3. 数据变化对业务效果的非负向的保障

结合线上、线下、全链路闭环的理论体系去设计我们的整体质量保障方案,如下图所示: 

专业用户独享

本文为机器之心深度精选内容,专业认证后即可阅读全文
开启专业认证
理论数据科学搜索引擎
暂无评论
暂无评论~