爱奇艺“多模态人物识别竞赛”收官,多模态视频人物识别精准度提升至91.14%

此次拔得头筹的北京邮电大学自动化学院团队,在爱奇艺公布的4个模态特征的基础上,重新训练了对齐的人脸识别模型,利用数据增强和这5种模态信息训练完成多模态分类模型,在数据集难度提升的情况下,将多模态视频人物识别精准度由去年的88.65%提升到了91.14%,提升幅度达2.5pp,成为多模态视频人物识别竞赛中的全球最佳算法。

经过3个月的角逐,爱奇艺联合全球多媒体领域顶尖会议ACM International Conference on Multimedia(以下简称ACM MM)共同举办的多模态人物识别竞赛于近日正式落下帷幕。本次大赛,吸引了包括卡内基梅隆大学、伦敦大学学院、埃克塞特大学、清华大学、北京大学等国内外顶尖高校,以及百度、中兴、京东、美图、英伟达等知名企业在内的共255支团队同场竞技。其中,来自于北京邮电大学自动化学院、北京邮电大学网研院网络智能中心以及南京大学计算机科学与技术系的团队分别获得前三名。 获得第一名的北京邮电大学自动化学院团队将多模态视频人物识别精准度提升到了91.14%,爱奇艺携手顶尖参赛团队在多模态人物识别领域再次取得突破。此次竞赛的颁奖仪式将在10月21日至25日在法国尼斯举办的第27届ACM MM 大会上进行。

目前,全世界众多科技公司以及学术机构发布视频数据集,侧重解决视频识别各种难题。其中,牛津大学发布过VoxCeleb2数据集,其中包含6千多人,15万视频,侧重于解决说话人识别的问题;为了更好地检索识别对视频中的说话的人物,其中,牛津大学发布过VoxCeleb2数据集,其中包含6千多人,15万视频,侧重于解决说话人识别的问题;香港中文大学和商汤科技合作发布的包括1218人,12.7万视频CSM数据集,为了更好地检索识别视频中的说话的人物。以色列特拉维夫大学的Youtube Faces DB,拥有3425个视频片段与1595个人物,用以解决非约束环境下的人脸识别问题。

此次,爱奇艺发起的多模态人物识别挑战赛中,对参赛者公布了通过严格人工标注、更具有挑战性的多模态人物数据集(iQIYI-VID-2019),包含10000名明星人物、200小时、20万条影视剧与短视频数据集,更接近实际应用场景,其中包括脸部,头部,身体及声纹4个模态的特征,为学术界及工业界利用多模态特征去更全面解决场景复杂、人体动作多变、化妆等人物识别难题提供了便利条件。参赛团队无需使用自己的计算资源去提取特征,这样大大降低该竞赛对硬件资源的门槛,吸引了更多全球顶尖优秀的学术机构团队参与,加快提升人物识别技术不断向前演进。此次拔得头筹的北京邮电大学自动化学院团队,在爱奇艺公布的4个模态特征的基础上,重新训练了对齐的人脸识别模型,利用数据增强和这5种模态信息训练完成多模态分类模型,在数据集难度提升的情况下,将多模态视频人物识别精准度由去年的88.65%提升到了91.14%,提升幅度达2.5pp,成为多模态视频人物识别竞赛中的全球最佳算法。

多模态人物识别技术精准度进一步提升意味着,爱奇艺可以通过对复杂场景下精准识别为用户带来更优的视频消费体验,进一步提升娱乐系统的效率,例如,通过识别短视频、UGC内容中模糊、侧面、距离远等复杂场景中的人物,更好地为用户精准推荐内容,加强爱奇艺个性化内容分发能力;在AI雷达中,通过对视频人物的精准识别,通过只看TA的功能让用户享受到更为个性化的互动体验;可以使HomeAI智能语音交互平台提升用户的交互体验;以及让AIWorks视频智能创作对长视频进行更精准的拆条,以及进一步提升爱奇艺爱创媒资系统制作爆款剧的效率等。

爱奇艺首席技术官兼基础架构和智能内容分发事业群总裁刘文峰表示,多模态人物识别竞赛不断取得突破,除了对爱奇艺娱乐生态产生重要价值之外,对人物识别技术的研发,技术成果转化效率,相关人才培养都会产生深远的影响。未来,爱奇艺将不断与国内外学术机构、行业领先者合作,不断提升前沿技术的探索与实践。

爱奇艺技术产品团队
爱奇艺技术产品团队

爱奇艺做一家以科技创新为驱动的伟大娱乐公司,用大数据指导内容的制作、生产、运营、消费。并通过强大的云计算能力、带宽储备以及全球性的视频分发网络,为用户提供更好的视频服务。

产业说话人识别人物识别多模态
相关数据
商汤科技机构

商汤科技成立于 2014 年,专注于计算机视觉和深度学习的原创技术,是中国领先的人工智能头部公司,估值超过 45 亿美金。以「坚持原创,让 AI 引领人类进步」为使命,商汤科技建立了国内顶级的自主研发的深度学习超算中心,并成为中国一流的人工智能算法供应商。商汤科技不仅在技术实力上领跑行业,商业营收亦领先同行业,在多个垂直领域的市场占有率居首位。目前,商汤科技已与国内外多个行业的 400 多家领军企业建立合作,包括 Qualcomm、英伟达、本田、中国移动、银联、万达、苏宁、海航、中央网信办、华为、小米、OPPO、vivo、微博、科大讯飞等知名企业及政府机构,涵盖安防、金融、智能手机、移动互联网、汽车、智慧零售、机器人等诸多行业,为其提供基于人脸识别、图像识别、视频分析、无人驾驶、医疗影像识别等技术的完整解决方案。

www.sensetime.com
人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

说话人识别技术

说话人识别作为模式识别的一类,主要任务是通过待测试语音来判断对应的说话人身份。 从识别对象进行划分可以主要分为两个部分:说话人确认(speaker verification)和说话人辨认(speaker identification)。如果待测说话人的范围已知,需要通过语音段对待测说话人的身份进行判断,是否是属于某个说话人,则为说话人确认。说话人确认问题可以归结为是一种1:1的身份判别问题。若说话人的身份范围未知,需要从一定的范围内来对语音段对应的说话人身份进行辨别,这属于说话人辨认问题。说话人辨认问题可以归结为是1:N的问题。 从识别语音段的文本,可以讲说话人识别问题分为文本相关问题和文本无关问题。对于文本相关问题,待测试语音段的内容需要和系统中预先登记的内容相同。对于文本无关问题,待测试语音段的内容可以与系统中预先登记的内容不同,待测试说话人可以只说几个字来进行身份认证。

爱奇艺机构

2010年4月22 日正式上线,爱奇艺推崇品质、青春、时尚的品牌内涵如今已深入人心,网罗了全球广大的年轻用户群体,积极推动产品、技术、内容、营销等全方位创新。企业愿景是做一家以科技创新为驱动的伟大娱乐公司。于2018年3月29日在纳斯达克上市。 爱奇艺已成功构建了包含电商、游戏、移动直播、漫画、阅读、电影票、短视频等业务在内、连接人与服务的娱乐内容生态,引领视频网站商业模式的多元化发展。

http://www.iqiyi.com/
百度机构

百度(纳斯达克:BIDU),全球最大的中文搜索引擎、最大的中文网站。1999年底,身在美国硅谷的李彦宏看到了中国互联网及中文搜索引擎服务的巨大发展潜力,抱着技术改变世界的梦想,他毅然辞掉硅谷的高薪工作,携搜索引擎专利技术,于 2000年1月1日在中关村创建了百度公司。 “百度”二字,来自于八百年前南宋词人辛弃疾的一句词:众里寻他千百度。这句话描述了词人对理想的执着追求。 百度拥有数万名研发工程师,这是中国乃至全球最为优秀的技术团队。这支队伍掌握着世界上最为先进的搜索引擎技术,使百度成为中国掌握世界尖端科学核心技术的中国高科技企业,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://home.baidu.com/
京东机构

京东(股票代码:JD),中国自营式电商企业,创始人刘强东担任京东集团董事局主席兼首席执行官。旗下设有京东商城、京东金融、拍拍网、京东智能、O2O及海外事业部等。2013年正式获得虚拟运营商牌照。2014年5月在美国纳斯达克证券交易所正式挂牌上市。 2016年6月与沃尔玛达成深度战略合作,1号店并入京东。

推荐文章
暂无评论
暂无评论~