Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

达摩院交给「马老师」的第一份作业,「科代表」任小枫解读答题思路

撰文 | 高静宜

编辑 | 微胖

「马老师给我们定的目标非常高,要我们去解决未来的问题,解决别人解决不了的问题,解决真正重要的问题。」阿里达摩院 iDST 首席科学家兼副院长任小枫笑着说道,「我们也花了很多力气去让技术落地。」

今天,达摩院终于公布首个技术落地领域:文娱短视频行业。

 

12 月 1 日,在成都举办的第五届全国网络视听大会短视频高峰论坛上,阿里大文娱与达摩院联合发布了一个名为「鲸观」的全链路数字版权服务平台。



平台搭载了达摩院 iDST 人工智能技术,能够实现视频智能编目、音视频指纹监控等功能。不仅可以解决短视频领域的维权问题,还可以帮助建立视频素材交易生态,实现内容价值最大化。

说起短视频,大家可能并不陌生。

无论是 papi 酱、谷阿莫等「网红」IP 的视频,还是前段时间感动朋友圈的「番茄炒蛋」,都在我们的娱乐生活中刷足了存在感。

由于其对时空、文化限制因素的不敏感性,几乎人人都可以成为短视频内容的生产者。而各种短视频平台又反过来催生了大批线上用户。

以秒拍为例,其日均覆盖用户已经超过 7000 万,日均视频上传超过 170 万,日均视频播放量峰值超过 30 亿次。

短视频行业正成为一个新的创业风口。

 

不过,在平台方和内容创作者的商业探索中,往往会遇到一些难题。

首先,生产环节的产能不匹配。体量较大的内容生产团队「高产似母猪」,让一些单打独斗的内容生产者相形见绌。

其次,分发环节的盗版以及商业化能力弱。

在极度追求流量的短视频领域,铺天盖地的盗版对于内容生产者来说无疑是一场灾难。某人呕心沥血的视频作品,被别人拿去稍作修改,或是更换了一个标题、封面,就成了对方的流量,为他人作嫁衣裳。而且内容原创者也很难发现自己的作品已被他人侵权盗用。



这并不是一个新问题,人类迈入数字化和互联网时代以后,侵权成本就开始变得很低,而维权成本变得越来越高。

第三,商业化较弱。

为此,结合了阿里文娱三个「C」的资源、技术、数据,与阿里达摩院最先进的 AI 技术的鲸观平台,会先围绕这几个行业痛点,分别提供三个基本服务:智能视频编目、基于数据能力实现版权保护,以及商业变现。

在智能视频编目方面,据任小枫介绍,目前平台已经可以提供一个相当完备的视频标签体系,拥有两万余种标签,关联几千种问题和几百种场景。

标签会以中文的形式展现,这也是后续搜索的基础。有了标签,视频素材就容易被检索。

这一技术也会重新激活数亿行业闲置的视频资源,可以实现二次甚至多次使用价值,有利于量低创作者提高产能。

任小枫告诉我们,这里需要用到人脸检测识别技术。



「要把视频中所有的人脸准确认出来在技术还是相当有难度的。」很多情况下会受到分辨率、角度、距离的影响。

为了解决这个问题,团队选择使用超深卷积网络,并对模型简化加速,从而实现精准的人脸检测、跟踪、识别。

为了有效打击盗版,在完成视频智能编辑打标的同时,鲸观平台还会在音视频素材上抽取「指纹」,让音视频素材在全网范围可追诉,能够实现毫秒级速度支持百亿级指纹检索,侵权盗版无处可逃。

音视频指纹技术不仅大大降低了视频版权监控取证的成本,还可被用于广告分成等多种业务场景。

目前,5 分钟时长的视频经过全链路处理则可在 10 秒内完成,而且可以实现全网监控六秒级的画面,并在一小时内给出反馈。

「我们希望视频可以像指纹一样可以计算出精确的特征,然后做匹配。这个看起来比较简单,实际上中间还是有很多难点的。」任小枫解释道。

例如,他人可能会在视频上添加 Logo,调整分辨率、亮度等因素,在各种变化的情况下精准识别出对应的场景就是团队需要攻克的一大问题。

目前,平台已经可以完成多场景视频,而且准确率达到 99% 以上,并具备实时扩展性。

为了简化视频指纹的特征,平台还采用了二值索引引擎技术。如此一来,二值特征可以大大提高存储和计算的速度,而且并没有精度的损失。目前,指纹的检索系统已经可以做到百亿级的指纹的检索。

 

不过,任小枫也指出,对于一个产品来说,光是有好的算法还远远不够,还要有高效的处理系统。

阿里内部已经研发出了一个高效灵活的视频分析平台,可以进行分发和多任务的处理。也正是在这套系统的支持下,视频的下载、解码、编码以及处理才能实现毫秒级的速度。



「视频技术是一个发展很快的阶段,也有相当多的提升空间。我本人对视频技术也有很多的期望,希望能够在这个平台上探讨我们的视频技术。」任小枫提到,平台也将继续在内容的理解、素材的搜索以及特效的编辑等方面发力。

据透露,最近任小枫的团队正在研究的方向之一就是对单帧图像不再局限于打标签,还要分析出物体之间的关系,并从时间的维度上检测动作、行为、时间的发生。将检测识别和分析两项技术结合起来,从而更加深入地理解视频。

另一个技术方向是直接分析视频的内容,判断与另一段视频的相似度,不再着眼于准确地文字描述。

 

郝峰说,现阶段,鲸观平台的这些能力将面向内容数据资产的持有方。最晚到明年的第一季度,会开放购买侧的服务,降低视频制作成本,最大化素材价值。

「我们会不断结合阿里达摩院的技术持续优化,我相信,现在是产业向另一个台阶迈进的爆发前夜。」

产业阿里巴巴达摩院任小枫
11
没啥用感觉