Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

魏启扬

要想成为郎朗,请AI监督练琴可不行!

作为一个琴童的家长,督促孩子练琴是件头疼的事情。请老师陪练,除了需要额外支出一笔课时费外,家与琴行之间的通勤还得预备大量时间;自己亲自上,由于缺乏专业知识,无法解答孩子在练琴中出现的问题,至于错音、手型、指法等孩子练琴时经常出现的错误,自然也是没有能力纠正的了。

普通家长无法胜任琴童的陪练工作,那么看上去「无所不能」的 AI 能行吗?当越来越多的 AI 陪练产品的广告以「无孔不入」的态势对你进行冲击时,你是否会有那么一点点心动?

千亿级市场催生多种玩家

在应试教育体系下,音乐教育受到的关注和重视程度远远不及那些文化科目,至于钢琴、小提琴这些乐器的演奏更是小众人的喜好,不然我们也不会用鄙夷的眼神看待朋友圈中晒音乐会门票的行为了——「装什么?谁知道那张票是地上捡的还是充值送的?」

圈层的小众并不代表其中缺乏市场,相反,在音乐培训行业,其中的市场规模出人意料的大。

根据中国乐器协会的统计数据显示,2017 年,中国乐器市场规模达 448 亿元人民币,占据全球乐器市场三成左右,仅次于美国成为世界第二大乐器市场;与之相关的音乐教育培训市场规模更大,超过乐器市场规模两倍,接近 1000 亿元人民币。此外在音乐教育普及率方面,国内音乐教育的普及率只有 2.5%,欧美国家的普及率在 20% 以上,这也给音乐教育培训行业描绘了一幅巨大的蓝图。大量资本涌入赛道,音乐培训的主课教学上传统模式与线上平台混战厮杀,琴童的课后陪练也引发了大量玩家进场争食。

对于陪练这种较为枯燥的重复性工作,家长不懂,一般的老师又不愿意接(相比陪练课,主课课时费更高),于是 AI 陪练如同「救世主」般出现了,在这个赛道中,主要有三类玩家。

1、陪练机器人:直接以机器人的形式监督琴童练琴,随时指正练习过程中的错误,为消除练琴时的枯燥感,机器人还可以与琴童交流互动。练琴结束后,机器人还可根据当天的练习情况生成一份练琴报告。这类机器人价格不贵,淘宝上的价位在千元左右。

2、AI+真人陪练:像「滴滴」打车一样,用户在平台发布陪练需求后,平台专职的陪练老师就会接单,在线上通过视频直播的方式进行陪练(也可指定陪练老师固定上课时间)。平台会通过 AI 设备采集琴童练琴时的各项数据并进行分析,陪练老师也会根据 AI 设备采集回的音频、视频数据对用户进行实时指导。目前这类玩家最受资本追捧,像 VIP 陪练、音乐笔记等 AI+真人陪练平台已经经历多轮融资。

3、手机 APP:最便捷的一种 AI 陪练方式。以生成练琴报告的形式对练琴效果进行分析和判断。略微局限的是,手机 APP 只能从声音层面比如错音、节奏等维度进行分析,练琴时的指法、手型等需要视觉层面进行判断的维度尚无法分析。

AI 陪练只能「远观」不可「细究」

在音乐陪练这个应用场景中,通过机器的传感器和算法的接入来代替重复性劳动,包括一些基础性的判断和数据分析等,这正是 AI 所擅长的。

相比真人陪练需要通过耳朵和眼睛来收集演奏的声音、节奏、指法等信息(数据),通过 AI 来收集这些数据做判断会比人类更加精准,并且还能大幅提高效率。在目前的实际应用中,AI 陪练对于解决琴童练习过程中经常出现的音准、节奏、连贯性等问题做的还不错,但 AI 陪练要想完全颠覆传统陪练模式,还需跨越 3 个技术障碍。

1、准确的音频识别能力

音准是否正确是陪练需要解决的核心问题之一,AI 陪练基本都是用采集来的音频数据与曲库中的标准演奏音准进行比对,从而来判断琴童弹奏的质量。从技术原理来看并不复杂,但在实际应用中,AI 陪练的音频识别准确性并不稳定。

「明明弹奏的很流畅,没有问题,但陪练机器人还是在一旁提示错音、漏音。」在调查过程中,智能相对论收到的琴童吐槽不在少数。

虽然 AI 在语音识别方面取得了很大的进展,但在嘈杂环境下的语音识别,AI 处理起来还是有些力不从心,特别是几个人同时交流说话时,要想分辨出每个人的说话内容对于 AI 来说还是有些困难。麻省理工大学曾对乐曲的音频识别做过研究,在录音棚等音质极端干净的环境中,AI 的复音(4 个音同时演奏)识别准确率在 94%,然而在普通环境中,AI 的复音识别率最高只能达到 74%,这样的识别率还只是对钢琴 4 级以下乐曲进行测试时获得的。随着乐曲难度的增加,AI 陪练音准识别的准确率也随之降低。

在音准识别这一项上,陪练机器人和真人陪练老师的优劣高下立判,至于手机 APP,除了给它一个「呵呵」,无需再作太多评价。

2、演奏技巧的分析能力

音乐的美妙之处在于 7 个音符通过不同的排列组合方式形成的旋律所带来的美感,不同乐器的声音特性在表达特定情感时所产生的共鸣。根据乐器的演奏方式可分为以萨克斯、唢呐为代表的吹管类;以小提琴、二胡为代表的拉弦类、以钢琴、古筝为代表的弹拨类和以架子鼓、马林巴为代表的打击类。现在问题来了,乐器的种类五花八门,演奏技巧更是繁杂多变,对于不同乐器演奏技巧的分析,AI 的表现并不会比不懂乐器的你我更好。

目前市场主流的 AI 陪练机器人只能对钢琴、小提琴、手风琴、古筝 4 个乐器进行陪练,对于需要手脚协调配合演奏的架子鼓、双排键、管风琴等乐器,AI 尚不能很好的理解这些乐器的演奏技巧,特别在一些打击乐需要用到的手腕「暗劲」上,AI 难以捕捉到相关数据,即便通过可穿戴设备记录到相关数据,如何对数据建模,对这类技巧进行描述和讲解,现在的 AI 可用的办法不多。至于那些通过运气技巧演奏的吹奏类乐器,从气息的聚集,到发力方式和部位,再到吹气、吐气、换气的节奏间隔,现有 AI 技术能够介入的程度有限,能够起到的陪练效果自然有限。

3、演奏水平的鉴赏能力

在艺术创作领域,AI 已经进行了有益的尝试,不光能写剧本、小说,还能画画和作曲,特别是当首幅 AI 画作拍出 300 万的高价时,人类开始重新审视 AI 的「创造力」和艺术鉴赏能力。在陪练这个属于艺术鉴赏范畴的领域,AI 的鉴赏水平能达到怎样的程度呢?

考量一首乐曲演奏完成程度的高低,往往涉及到多个维度。以钢琴为例,需要从乐句、节奏、触键准确性、双手配合、指法、紧张程度、触键力度、演奏法八个维度进行评判。不同维度应用场景的交互与叠加,让 AI 对乐曲鉴赏标准的建模变得异常复杂。这个标准人类也只有一个大致框架,没有形成让 AI 更容易理解的量化数据。特别是 AI 的艺术创造力还未获得人类普遍认可的情况下,在音乐鉴赏方面,如何将对音乐的鉴赏从表面的音准、节奏等音频数据深入到乐曲的音响结构及各种形式因素上去,准确地把握音乐作品的「内涵」,真正地听懂音乐,AI 的「自我学习」还有一段很长的路要走。

AI+真人在线陪练并不是最优方案

如果说现有的技术水平还不支持 AI 完成陪练的所有流程和环节,那么 AI+真人的在线陪练模式是否就是当前音乐陪练领域的最佳解决方案呢?从当前 AI+真人在线陪练所暴露出的问题来看,在线平台要想颠覆传统陪练模式道长且阻。

首先,价格时间等用户痛点依然存在。

AI 的出现就是为了解放生产力,让人类以更小的代价(金钱)获取收益,或者让人类脱离低效重复劳动。AI+真人在线陪练平台这两方面都没有很好的解决。

为了更好的陪练效果,真人陪练老师在这一模式是永远无法绕开的一环,他们必须时刻在线对琴童的练习进行监督和指导。

在用户端,选择 AI 真人在线模式陪练也是希望在科技的推动下,能够享受到更低的课时开销,但在在线平台的运营下,AI 技术的加入反而成了高课时费的理由。目前主流 AI 真人在线陪练平台的课时费普遍在 100—200 元间,这个标准几乎与主课课时费相当,与传统陪练模式课时费相比也无优势。

其次,陪练老师与主课老师缺乏协同配合。

在 AI+真人陪练平台的教学流程中,很多陪练老师会在陪练学生的谱子上圈出一堆圈圈,然后批注下去练习时要改正。可实际情况是,这个学生已经上完了主课,在课堂上主课老师已经指出了他的不足,「主课时该圈的已经圈完了,陪练是要把圈圈一个一个去掉啊,哪怕一节陪练课去掉一个圈也好啊。」一位主课老师向智能相对论吐槽线上陪练的问题时表示,自己不会向学生推荐 AI+真人线上陪练平台,如果学生真有需要,会在线下找对自己工作定位清楚的陪练老师。

主课线下老师上,陪练线上老师带,两个老师互不认识,毫无交集,又无顺畅的沟通渠道,夹在中间的学生在不同教学思想老师的调摆下无所适从。

最后,网络环境极大影响陪练效果。

在 5G 即将到来的今天,我们所处的网络环境仍然不是非常稳定,特别是家中接入的终端设备越来越多情况下,与朋友进行视频通话、用平板网上追剧时常会出现卡顿、延迟的现象。

网络环境的不稳定也极大的影响着陪练的效果,往往就因为一点卡顿,AI 设备未能收录到演奏的错音,另一端的陪练老师自然也无法对演奏进行指正。出现这种问题的时候又该怪谁呢?

智能相对论
智能相对论

深挖人工智能这口井,评出咸淡,讲出黑白,道出深浅。重点关注领域:AI+医疗、机器人、智能驾驶、AI+硬件、物联网、AI+金融、AI+安全、AR/VR、开发者以及芯片、算法、人机交互等。

专栏二维码
产业教育机器人语音识别人机交互
1
相关数据
数据分析技术

数据分析是一类统计方法,其主要特点是多维性和描述性。有些几何方法有助于揭示不同的数据之间存在的关系,并绘制出统计信息图,以更简洁的解释这些数据中包含的主要信息。其他一些用于收集数据,以便弄清哪些是同质的,从而更好地了解数据。 数据分析可以处理大量数据,并确定这些数据最有用的部分。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

推荐文章
暂无评论
暂无评论~