Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

百度高级副总裁向海龙:依托AI,全面拥抱视频时代

5 月 22 日,2018 年百度联盟生态峰会在海南海口召开。在此届峰会上,百度高级副总裁、百度搜索公司总裁向海龙以「新『视』代」为题发表了主题演讲。向海龙表示,技术的发展让视频成为最直接最高效的沟通方式,全民视频大爆发时代已经来临,百度依托 AI 能力,能够让复杂视频的生产更容易、视频的内容检索更简单。百度已经准备好跟合作伙伴们一起,全面拥抱视频时代。

百度高级副总裁、百度搜索公司总裁向海龙

在演讲中,向海龙介绍说,视频能够让信息实现更高效、更广阔的传递。很多例子都能够证明,视频是最高效的沟通和表达方式。

但视频应用依然存在四个难点:生产难——视频生产需要专业设备;存储难——需要很大的存储空间;传输难——传输速度慢和流量资费贵使得传输成本高;检索难——基于语义理解和字面匹配的传统检索技术难以在视频这种信息载体上直接应用。

 而随着智能手机、云端存储、4G 网络、wifi、AI 的视觉识别及语音识别等各个领域的技术革新陆续出现,原来视频不能成为记录主流模式的障碍已基本被打破。向海龙认为,因为视频的便利性,我们将进入一种「新原始」时代,让人们重新回归传统的沟通和表达方式,全民视频大爆发的时代已经到来,视频将充斥我们工作和生活的方方面面。百度,将依托深耕多年的 AI 优势,赋能复杂视频生产和视频检索。

向海龙介绍说,拍摄一个高质量视频,特效是必不可少的。而以前,视频中的高级效果大多是通过专业的后期制作实现的。现如今,通过 AI 技术,任何人都能轻易实现这些酷炫的效果。基于百度 AI 技术具备的人体识别、形体美化、人景分离、语音识别语音合成等能力,他在现场分别演示了「瘦身」、「分身术」、「变声」的特效示例视频,呈现了百度如何让生产复杂视频更简单。

而后,他又介绍了百度如何让检索视频更准确高效——通过对视频的全景扫描,利用语音识别人脸识别物体识别等技术完整分析视频中的内容,将视频背景、人物、语言等信息进行组合,百度可以给每个视频生成一个独特的指纹,大幅提升视频检索的效率和准确率

AI技术依托

在 Demo 中,百度展示了 AI 技术让利用语音快速检索视频成为可能。向海龙还指出,当视频具有丰富标签,未来直接通过文字、语音或图像,都可以快速实现大规模的视频检索。「哪怕突然有一首歌想不起来了,只要能哼唱一段,百度就能检索出这首歌曲的 MV。」 

演讲的最后,向海龙表示,百度已经准备好跟合作伙伴们一起,全面拥抱视频时代。随着 5G 时代即将来临,人们的生活也将产生日新月异的变化。未来医疗和教育资源将更加均衡,精密的手术可以远程操作、高端教育课程可以随时随地进行,游戏的体验和真实生活将融为一体。人们的沟通方式也可能将全面进入视频时代,百度希望和伙伴一起,在这个新时代创造更多的价值。

产业百度视频应用产业人工智能
相关数据
人脸识别技术

广义的人脸识别实际包括构建人脸识别系统的一系列相关技术,包括人脸图像采集、人脸定位、人脸识别预处理、身份确认以及身份查找等;而狭义的人脸识别特指通过人脸进行身份确认或者身份查找的技术或系统。 人脸识别是一项热门的计算机技术研究领域,它属于生物特征识别技术,是对生物体(一般特指人)本身的生物特征来区分生物体个体。

语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

物体识别技术

计算机视觉领域的一个分支,研究物体的识别任务

推荐文章
暂无评论
暂无评论~