Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

国内首个端到端通用语音大模型——心辰Lingo开放内测预约

内容导览:

国内首个端到端通用语音大模型——心辰Lingo现开放内测预约。 

在技术上,心辰Lingo具备实时打断、实时指令控制、超级拟人、能说会唱等能力,拥有比 GPT-4o 更出色的中文语音效果。9月5日西湖心辰将在外滩大会上正式发布该模型,这一技术的突破或将对多个领域产生深远影响,有望引领人机交互进入一个全新的时代。

登陆「心辰Lingo」语音大模型官网(https://lingo.xinchenai.com),即可马上预约内测。

什么是端到端语音对话模型?

传统的语音交互是先将语音转成文字,再理解文字,然后生成回复文字,最后再将文字转为语音。每次交互中“语音-文本”和“文本-语音”的转换不可避免地会丢失信息,特别是语音中包含的情绪表达和“言外之意”。

端到端语音对话模型,就像是一个“高情商”的朋友。它可以捕捉到语气的起伏,情绪的波动,甚至是话语中的犹豫和停顿。能“倾听”、能“引导”,还能与你"共情",提供情绪价值。

端到端心辰Lingo三大核心优势

心辰Lingo作为国内首个端到端通用语音大模型,融合了语音识别自然语言处理意图识别、对话管理以及语音合成等多项前沿技术,具备实时打断、实时指令控制、超级拟人、能说会唱等能力。研发团队针对模型能力在多个领域和中文上进行增强,使Lingo的中文语音效果,相较GPT4o更为出色。与其他语音大模型相比,Lingo拥有以下3个技术特征:

原生的语音理解:在精准识别语音中的文字信息的同时,精确捕捉其他重要特征,如情感、语气、音调,甚至环境音,帮助模型更全面地理解语音内容,从而提供更加自然和生动的交互体验。

多种语音风格表达:能根据交互上下文和用户指令,自适应调整语音的速度、高低、噪声强度等,并生成对话、歌唱、相声等多种风格的语音响应,有效提升模型在不同应用场景下的灵活性和适应性。

语音模态超级压缩:采用具有数百倍压缩率的语音编解码器,能够将语音压缩至极短的长度,在显著降低计算和存储成本的同时帮助模型生成高质量语音内容。

心辰Lingo多场景多领域应用探索

端到端语音技术正以其强大的交互能力和智能化处理方式,不断地拓展在各行各业的应用边界。心辰Lingo作为行业先锋,也正积极进行相关应用场景探索。

具身智能:心辰Lingo可以扮演不同的助手角色,根据用户的需求和指令,提供个性化的语音服务。与具身智能技术深度融合,便能大幅提升智能机器人的意图识别与沟通理解能力,让用户享受智能生活带来的便捷之余,更能感受到科技的温情与贴心。

心理疗愈:心辰Lingo可以根据用户的情感状态,模拟“朋友”以及“亲人”的沟通方式,通过定制语音提供安慰和鼓励,帮助用户缓解压力和焦虑。此外,可以模拟心理咨询师,用专业且温暖的态度与用户进行语音交流,提供倾听、理解和引导,帮助用户走出情绪低谷。

客户服务:心辰Lingo卓越的即时响应能力,能确保在与用户交流时提供无任何体感延时的语音服务。它不依赖于传统的决策树结构,避免了因未预见情况而导致的响应障碍,无论用户提出何种问题,Lingo都能凭借其先进的算法和强大的语言理解能力,提供恰当且及时的答复。心辰Lingo还能精准识别客户烦躁、生气、高兴、舒缓等不同情绪,快速地调整语音语调、声音大小,以提供更具人性化和同理心的语音服务。

儿童教育:孩子天马行空的想象力和并不完善的语义表达增加了人机沟通的难度。心辰Lingo可以通过分析上下文、语气、语调等深入理解儿童语音内容,围绕“爱商教育”理念,以积极的鼓励和表扬与孩子们建立情感联系,激发他们的表达能力。此外它还能用说唱的方式来讲述故事情节与知识,增加学习的趣味性和吸引力,真正做到寓教于乐。

岁月档案:人类大脑的存储空间是有限的,心辰Lingo作为端到端AI语音大模型,具备长期记忆的能力,能提供记忆无限存储服务。它可以从对话中提取有效信息并记录存档,支持随时提取。利用存档的数据与AI克隆技术,即可复活亲友与你同频“交流”。它拥有你们之间共同的回忆,能更好地与你共情对话。

从智能家居到医疗健康,从客户服务到教育辅助,再到记忆存档,端到端语音系统正以其便捷性、高效性和个性化服务,引领人机沟通进入一个全新的时代。随着技术的不断成熟和创新,我们可以预见,该技术将在未来的智能世界中扮演更加核心和关键的角色,为人们的生活和工作带来更多的便利和可能。

心辰Lingo端到端语音大模型的问世,是西湖心辰在语音技术领域深耕细作的成果,也是探索智能语音应用的一次重要里程碑。

9月5日,西湖心辰将在外滩大会正式发布该模型。目前,心辰Lingo端到端通用语音大模型已开放测试预约,欢迎大家前来预约体验。


产业
相关数据
语音合成技术

语音合成,又称文语转换(Text to Speech)技术,是将人类语音用人工的方式所产生,能将任意文字信息实时转化为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、数字信号处理、计算机科学等多个学科技术,是信息处理领域的一项前沿技术,解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开口说话。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

意图识别技术

意图识别指理解说话人的意图 。

推荐文章
暂无评论
暂无评论~