浅谈人工智能在流媒体领域的应用

人工智能正加速改变各个行业,而流媒体领域可能是其中改变最快的一个。随着神经网络相关算法问题得到解决,人工智能技术在最近几年得到了快速的发展,而人工智能技术在流媒体领域的渗透,使这项技术获得了新的突破。当下图片、长视频、短视频、直播、AR等各种媒体形式占据着互联网圈,在媒体内容和形式都非常丰富的今天,如何辨识、解析这些内容,并通过人工智能反馈是目前所有科技巨头关注的焦点,其中图像识别、语音语义识别、同声传译、字幕识别等应用场景的进一步挖掘,需要人工智能大战拳脚。

什么是人工智能

通俗一点讲,人工智能就是大数据+机器学习。这跟我们人类很像,我们想要获取知识的话,需要很多的源材料,比如通过观察外边的世界,去阅读各种书籍,或者请教老师、他人等。对于计算机来说也是这样的原理,它需要获取大量的数据去做训练,在大量数据里边抽取出有用的信息,构成它的知识库

数据是人工智能的基础

数据是人工智能技术实现的基础,在UCloud平台中,数据处理是如何操作的呢?首先,我们我们的对象存储、直播云、媒体工厂每天会产生大量的原始数据,比如对象存储每天新增的图片会超过10亿张,但是这些原始数据并不一定是对计算机友好的,例如直播数据,里面有传输的协议、音视频的交错,还有各种编码在里面,这样的原始的数据对机器学习来说是不友好的。我们就需要预处理的平台对原始数据进行处理,譬如图片压缩、音频提取与声道、采样率归一化、视频的抽帧等,这些预处理的功能目前采用docker镜像部署的方式跑在我们的弹性计算平台上,目前有超过10000个虚拟节点在做这个事情。

仅有数据还是不够的,我们需要对数据打上标签,让计算机知道这个东西是什么,然后它通过数据标签去训练和想学习,认识这一类的事物。目前打标签有多种形式,如人工标注、关键字主动抓取等,对于难于标注的语音类的数据,我们也会购买第三方的数据。数据是人工智能的基础,未来在人工智能这个领域,数据层面的竞争将会非常激烈。

机器学习解决哪些问题?

人工智能的另外一个重要环节机器学习,它解决的主要是两类问题,一是分类,二是回归

分类目前应用得比较广泛,也相对成熟一些,如图片的分类,给出一张图片,识别这个图片是小猫还是小狗;或是对文字内容的分类,比如让计算机去分析一篇文章到底是体育类的还是经济类的等等。回归则是数学的概念,它处理的问题也是偏数学方向的,输入和输出都是数字类型的。据了解,目前有些团队在做类似股票预测的场景,像这种场景依赖的变量非常多,而且本身系统非常复杂,难度比较大。

分类功能在媒体领域的应用

在当下这个内容为王的时代,分类和回归在媒体方面的应用十分广泛,如内容审核人脸识别自动标签字幕识别同声传译等。

【内容审核】

目前大多数的内容平台对用户都是开放的,用户可以上传图片、视频等。开放本身是好事,使得内容更加丰富,但会涉及到很多网络监管问题,在国家和政府对网络内容的监管要求越来越严格的背景下,很多内容平台公司会专门成立内容审核部门,采用人工审核的方式,对用户上传内容进行全量审核。这项工作如果完全依赖人力审核的话是一项巨大的工程,且审核团队的工作枯燥乏味。

目前UCloud的UMAI平台支持图片与视频的涉黄、暴力等内容识别,通过调用UMAI接口来对内容做预处理,可以将占比为绝大多数的正常内容过滤掉,而只留下极少数判定为疑似不健康的内容,需要审核团队进行进一步的复查,这样极大的减少了人工审核的工作量。

人脸识别

人脸识别现在在人工智能这块应用较为广泛,如身份认证、手机刷脸、系统登录等;另外是人脸的搜索,比如在一段视频里快速确定有没有出现某个关键人物,或一个图片集里有没有包含这样的人。人脸识别主要的流程一般如下,首先对这个图片进行人脸的检测,然后提取关键点,包括眼睛、鼻子、嘴巴、耳朵、轮廓等,切分处理以后,再给到卷积网络提取特征,最后再做人脸识别,目前我们在公司考勤、政治任务识别方面已有相关的应用。

【自动标签】

针对用户自主上传的图片,自动标签则发挥出重要作为。用户在上传图片的时候,往往只会标注一到两个关键词,对图片进行描述,而图片里边包含的大量其他的内容和信息,是没办法检索出来的,因为现在很多后台的搜索是基于关键字的。通过计算机视觉的场景识别功能,可以很好的将图片的隐藏信息挖掘出来,让图片有更多的关键字,能够被更多的场景检索出来,发挥其作用。

【字幕识别】

字幕识别的应用非常直接而实用,例如身份证、发票、名片的识别,可以减少手写录入的工作量,而类似视频字幕识别这种,则可以帮助计算机更好地去理解视频的内容。

【同声传译】

目前国内企业出海风潮正盛,利用人工智能实现同声传译可以帮助跨国公司、员工进行不同语种间的交流。在视频直播这一块,我们做了这样的系统,可以在视频直播传输前,把里面的音频提取出来,做切片处理以后,把语音识别出来,经过翻译系统后输出字幕并打上时间戳,播放终端拿到字幕和视频数据后,做一次时间戳同步,在播放端进行展示。

这个系统主要有两个难点:一是它是经过了两次计算机的识别,第一次是语音的识别,第二次是翻译,这会有一个误差的累积;二是这种场景的实时性要求比较高,比如说字幕的翻译有点滞后,视频数据又需要比较低的延迟,这样体验会非常不好。这也是这款产品正在优化的两个方向。

人工智能私有化部署应用

以上提及的是聚焦于公有云平台的人工智能的应用,而我们在跟很多客户的交流中,因为政策以及保密的原因,他们不希望将数据放到公有云上,在他们内部也有不少服务器、视频采集设备等硬件资源,希望能够直接利用上。针对这样的需求,我们会建议使用私有化部署的方案。

UCloud平台做了两件事去实现私有化部署的方案:第一是组件化,我们内部有很多功能,比如直播、存储、录制、截图等,我们将这些功能剥离开,做成各种组件的形式。这样有一个好处,组件可以灵活搭配,用户需要什么功能就部署什么组件,如果对某些功能有个性化需求,只要简单修改对应组件的功能就可以了。第二是我们提供训练好的模型,部署到客户的私有环境中,目前这个模型是在我们公有云上训练好的。

私有化部署在自动考勤系统等场景已经有成熟的应用,我们也在不断挖掘更多可应用的场景,希望运用人工智能技术让我们的工作更便利、生活更美好。

UCloud技术
UCloud技术

分享UCloud的技术创新、架构设计、实践总结,内容同步于微信公众号“UCloud技术公告牌”

https://www.ucloud.cn/
专栏二维码
产业语音识别字幕识别计算机视觉同声传译人脸识别机器学习大数据神经网络应用流媒体
2
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

知识库技术

知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

神经网络技术

(人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

大数据技术技术

大数据,又称为巨量资料,指的是传统数据处理应用软件不足以处理它们的大或复杂的数据集的术语。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

推荐文章
暂无评论
暂无评论~