Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

阿里通义千问大模型加持,专攻音视频生产力的「听悟」来了

从通义千问到通义听悟的发布,间隔只不到两个月。
阿里用自己的大模型,给 AI 生产力工具来了一次大升级。
今天上午,「通义」家族迎来了新成员 —— 阿里云旗下的 AI 会议助理产品「听悟」全新升级为「通义听悟」,依托通义千问语言模型、音视频 AI 模型能力,为用户带来音频和视频内容记录和阅读的全新体验。
图片
官网地址:tingwu.aliyun.com
目前,「通义听悟」已上线服务网站,使用阿里云账号登录,公测期可体验所有 AI 功能。
从现场演示中可以看出,听悟融合了十多项 AI 功能。面向线上线下各种泛音视频场景,「通义听悟」提供音视频内容的实时字幕 / 转写、多语言翻译、内容理解 / 摘要,涵盖全文概要、章节速览、发言总结等高阶 AI 功能,旨在帮助用户及客户在泛音视频内容场景下提升信息生产、整理、挖掘、洞察效率。 
首先是「听力好」,比如能高准确度生成会议记录、区分不同发言人;此外是「悟性高」,大模型可以一秒给音视频划分章节并形成摘要、总结全文及每个发言人观点、整理关注重点和待办事项。另外,大模型一键提取 PPT、针对多个音视频内容向 AI 提问、概括特定段落等功能近期也将上线。
针对一些细分场景,听悟还设置了不少「宝藏功能」:打开 Chrome 插件,外语学习者和听障人士可以借助双语悬浮字幕条随时随地看无字幕视频,日程冲突时,听悟还可成为职场人士的「开会替身」,在静音情况下入会 AI 可代为记录会议、整理要点;转写结果可下载为字幕文件,方便新媒体从业者视频后期制作;听悟梳理的问答回顾可以让记者、分析师、律师、HR 等群体整理访谈更高效。
图片通义听悟 Chrome 插件将在近期对所有用户开放下载。
阿里云智能首席技术官周靖人介绍,听悟集成了阿里最先进的语音和语言技术。其内置阿里新一代工业级语音识别模型,识别准确率在多个权威中文数据集上名列第一;融合自研语音语义多模态说话人算法,能对 10 人以上说话场景进行角色区分;接入通义千问大模型后,能够对上万字的音视频内容进行摘要总结,事实准确与要点完备性国内领先,支持跨多音视频内容的精准问答理解。
具体到玩法,正如「通义听悟」的「自我介绍」中所说:
  • 如果你是一名职场人士,通义听悟可以帮你记录和回顾你的每一场会议;

  • 如果你是一位学生朋友,通义听悟可以让你不遗漏老师讲授的每一个重点;

  • 如果你是一名金融分析师或媒体从业人员,通义听悟可以存档你每一次的调研访谈;

  • 如果你想以最快的时间看完你最喜爱的视频博主的直播分享,通义听悟可以使你以成倍的速度抓住最精彩的内容。


接下来,让我们看看「通义听悟」的本领如何。
学习效率提升利器
首先,用户可以本地上传音视频,选择转写语言并上传文件,即可生成课程文字记录。

图片

阿里云盘直接导入也是可以的:
图片通义听悟支持一键导入阿里云盘音视频文件。
图片据了解,公测期间注册的听悟用户后续还将获得更大的阿里云盘存储空间,在云盘内在线播放视频时也可自动出字幕。
如果用户选择在「通义听悟」中播放课程视频,还可以实现文字与视频进度一一对应。点击文字还可以跳转进度,随意切换感兴趣的内容。

图片


此外,「通义听悟」能够帮忙总结课程关键词和议程,方便学习者了解课程要点、回顾讲解片段。
图片
如果你想复习一下学习过程的疑点、难点,可以打开听悟实验室,开启「问题回顾」,即可回顾课程中的答疑内容。
图片
图片
想要快速复习要点,则可以使用「只看标记」功能,筛选高亮内容,复习更高效。你可以在右侧笔记中记录核心知识点,将课程原文一键摘取至笔记中。几小时的课程,五分钟即可完成笔记。再使用分享功能,你可以将记录共享给其他用户,让知识流动起来。
更加高效的会议体验
面向会议日程繁多的「打工人」,「通义听悟」也新增了多项效率工具。
会议开始前,打开「开启实时记录」功能,可以将沟通内容实时转文字,完整记录会议信息。

图片

编辑标题,在右侧笔记中输入会议待讨论事项。

图片


在会议进行过程中,你可以修改识别结果,边听边记录,无需二次整理;也可以编辑发言人,将经常一起开会的同事设为常用发言人,后续会议无需再次输入。

图片

跨国会议中,可以开启翻译,支持双语对照和纯译文显示,沟通更顺畅。
图片

图片


会议结束后,点击结束录音按钮,选择本次会议发言人数并确认,「通义听悟」即可生成记录。不仅会总结关键词和议程,还能自动区分不同发言人,帮助快速掌握会议要点。

图片


此时,打开听悟实验室,即可查看值得关注的要点、待办事项,一键跳转至原文中,回顾会变得更高效。

图片


「通义听悟」有哪些关键技术?
此次听悟上线测试的信息摘要等能力,是以通义千问大模型为基座,并融合了团队在推理、对齐和对话问答等方向的持续研究成果。
「通义听悟」背后的「通义千问」,对关注 AI 领域的人来说并不陌生。从 2019 年开始,阿里就开始了大模型的研究,先后推出了被称为中文版 GPT-3 的中文大语言模型 PLUG,以及全球首个 10 万亿参数的多模态大模型 M6。「通义」是阿里达摩院 2022 年 9 月发布的大模型系列,且通过魔搭社区开源开放。
基于这些研究成果,今年 4 月 7 日,阿里正式发布了自研类 ChatGPT 产品「通义千问」。在技术落地上,「通义」也在不断加速。近期,阿里云通义千问等大模型已接入钉钉斜杠「/」。
此外,听悟还内置了阿里新一代工业级语音识别模型 Paraformer。Paraformer 是阿里达摩院去年 12 月发布的下一代「杀手锏」级别的语音识别基础模型,且是业界首个应用落地的非自回归端到端语音识别模型,在推理效率上最高可较传统模型提升 10 倍,识别准确率在多个权威数据集上名列第一。
同时,听悟的能力也可嵌进各类音视频平台,形成实时字幕、智能摘要等,典型应用如钉钉的「钉闪记」背后便集成了听悟。未来,全新升级后的「通义听悟」还将在夸克 APP、阿里云盘等端口提供服务。
最后,公测期间,用户可领取 100 小时以上听悟免费转写时长。如果你有需要的话,不妨上手一试?
参考链接:https://help.aliyun.com/product/454189.html
理论通义千问
相关数据
周靖人人物

中国科学技术大学毕业,获哥伦比亚大学计算机博士学位,前微软研发合伙人。2016年07月06日,周靖人已证实加盟阿里巴巴集团,任职阿里云首席科学家,将带领阿里云中美两地的研发团队,总体负责阿里云大数据平台和人工智能研究机构iDST的科研工作。

参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

阿里云机构

阿里云创立于2009年,是全球领先的云计算及人工智能科技公司,致力于以在线公共服务的方式,提供安全、可靠的计算和数据处理能力,让计算和人工智能成为普惠科技。 阿里云服务着制造、金融、政务、交通、医疗、电信、能源等众多领域的领军企业,包括中国联通、12306、中石化、中石油、飞利浦、华大基因等大型企业客户,以及微博、知乎、锤子科技等明星互联网公司。在天猫双11全球狂欢节、12306春运购票等极富挑战的应用场景中,阿里云保持着良好的运行纪录。 阿里云在全球各地部署高效节能的绿色数据中心,利用清洁计算为万物互联的新世界提供源源不断的能源动力,目前开服的区域包括中国(华北、华东、华南、香港)、新加坡、美国(美东、美西)、欧洲、中东、澳大利亚、日本。 2014年,阿里云曾帮助用户抵御全球互联网史上最大的DDoS攻击,峰值流量达到每秒453.8Gb 。在Sort Benchmark 2016 排序竞赛 CloudSort项目中,阿里云以1.44$/TB的排序花费打破了AWS保持的4.51$/TB纪录。在Sort Benchmark 2015,阿里云利用自研的分布式计算平台ODPS,377秒完成100TB数据排序,刷新了Apache Spark 1406秒的世界纪录。 2018年9月22日,2018杭州·云栖大会上阿里云宣布成立全球交付中心。

https://www.aliyun.com/about?spm=5176.12825654.7y9jhqsfz.76.e9392c4afbC15r
语言模型技术

统计式的语言模型是借由一个几率分布,而指派几率给字词所组成的字串。语言模型经常使用在许多自然语言处理方面的应用,如语音识别,机器翻译,词性标注,句法分析和资讯检索。

达摩院机构

阿里巴巴达摩院(The Academy for Discovery, Adventure, Momentum and Outlook,Alibaba DAMO Academy)成立于2017年10月11日,是一家致力于探索科技未知,以人类愿景为驱动力的研究院,是阿里在全球多点设立的科研机构,立足基础科学、颠覆性技术和应用技术的研究。阿里巴巴达摩院由三大主体组成,一是在全球建设的自主研究中心;二是与高校和研究机构建立的联合实验室;三是全球开放研究项目-阿里巴巴创新研究计划(AIR计划)。

https://damo.alibaba.com/
钉钉机构

钉钉是阿里集团专为中国企业打造的通讯、协同的移动办公平台,帮助企业内部沟通和商务沟通更加高效安全。

https://www.dingtalk.com/
推荐文章
暂无评论
暂无评论~