Povey正式出任小米语音首席科学家,小米移动端框架MACE全面支持Kaldi

今日,小米开发者大会 MIDC 2019 在北京开幕。语音识别大牛、前霍普金斯大学副教授 Daniel Povey 也正式宣布出任小米集团语音首席科学家,而近日更新的小米移动端深度学习框架 MACE 也已支持 Kaldi。

今年 10 月份,国际语音识别领域著名学者,前约翰霍普金斯大学教授、 语音识别开源工具 Kaldi 之父 Daniel Povey 在 Twitter 上表示,他将加入小米,来北京工作。

时间过得很快,这位知名学者在小米的全新职业生涯已经提前开始。

亮相小米开发者大会

小米第三届开发者大会 MIDC 2019 开幕前一天,小米创始人兼 CEO 雷军即在微博上宣布,Daniel Povey 将出任小米集团语音首席科学家,直接汇报给集团副总裁、技术委员会主席崔宝秋。此外,他也将首次露相开发者大会,分享「AI 语音领域的未来技术趋势」。

有关这位 AI 大牛的经历,在这里就不必详述了,他加盟中国公司也获得了语音识别社区的极大关注。

在正在进行的小米开发者大会上,Daniel 来到了现场。小米集团副总裁、小米技术委员会主席崔宝秋在演讲中表示,Daniel Povey 上周刚到北京,他将很快在北京组建独立研发团队。

崔宝秋表示,「Daniel Povey 是一个单纯的技术人员,非常符合小米的价值观——他要求自己在小米期间的工作必须保证 100% 开源。在未来,小米将继续加大在 Kaldi 上的投入,帮助打造一个国际化的开源社区,希望小米可以引领开源的语音识别技术。」

毫无疑问,Daniel Povey 是一个人工智能的重量级学者,人们对于小米招揽这样一位大牛花费了多少资源非常感兴趣。「其实大家有点想歪了,Povey 在前来小米参观的时候,主动和我们讲他不需要很高的年薪,」崔宝秋介绍道。「小米带给他的优厚条件,可以说是强大的手机+IoT 生态,重视语音技术研发的背景,以及小米深厚的开源文化。」

据说,Povey 来 10 月份前来小米时,在介绍完自己的工作之后就迫不及待地去到小米工位上,想要了解公司的工作环境和工程师们的工作氛围。

小米认为,手机是今天 AI 的最大应用平台,而从 IoT 到 AIoT 的发展将是一个质变。从过去的互联互通到未来的整体互联服务中,语音交互非常重要。小米将在 Povey 等人的带领下,在语音+视觉多模态交互等方向加速进行技术研发。

「KALDI 之父 Daniel Povey 能够来到小米是非常幸运的一件事,小米希望能够占据技术的制高点。当然,小米也会以全面开源的姿态参与技术的发展。」崔宝秋说道。

短短一个月,MACE 支持 Kaldi

小米去年 6 月就开源了移动端深度学习框架 MACE。在两天前,MACE 框架发布了最新的更新,在此次更新中可以看到,框架已支持了知名开源语音识别系统 Kaldi。

MACE 开源地址:https://github.com/XiaoMi/mace/releases

Kaldi 是一个开源的语音识别系统,由 Daniel Povey 主导开发,在很多语音识别测试和应用中广泛使用。

MACE 作为小米提前布局的开源产品,是一个可在移动端使用的异构计算平台神经网络框架。通过这一框架,小米可在移动端布局各类深度学习应用和算法,包括计算机视觉、语音识别等。据小米不完全统计,MACE 每天被调用 5000 万次。

在 MACE 的提供的模型中已出现了 Kaldi。

从 Kaldi 模型内可以看到,Kaldi 的 nnet2 和 nnet3 模型已被转换为了 ONNX 文件。ONNX 文件是一种通用的 AI 模型文件,支持在多个深度学习开发框架中使用。

据相关页面信息显示,MACE 已经支持大部分 Kaldi 系统内组件,以及 ONNX 形式的的 Kaldi 模型。此外,项目还提供了 Kaldi-onnx 转换工具。

具体转换后的模型列表如下:

本次加入对 Kaldi 的支持,无疑将进一步加强小米 MACE 在语音识别方面的优势。小米表示,他们会尊重 Povey 的想法和价值观,继续推进深度学习相关的开源工作。

此外,小米还准备在未来一两个月开源 MACE-Kit 和超低功耗计算设备。

产业语音首席科学家小米Daniel Povey
相关数据
崔宝秋人物

现为小米首席架构师、小米云负责人。美国纽约州立大学石溪分校计算机科学系博士。2000 年至 2006 年任 IBM 高级工程师和高级研发经理,负责 DB2 数据库优化和内核总控等核心模块的研发;2006 年至 2010 年任雅虎搜索技术(YST)核心团队主任工程师,参与了雅虎搜索引擎的热门搜索、查询优化和新一代查询缓存等重要项目的研发;2010 年至 2012 年任 LinkedIn 主任工程师,开始接触社交网络,并负责 LinkedIn Signal(内容搜索)的研发,期间作为创始团队之一开源了 SenseiDB,一个分布式实时搜索系统;2012 加入小米科技有限责任公司,任首席架构师和小米云负责人。

深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

小米机构

小米公司正式成立于2010年4月,是一家专注于智能手机自主研发的移动互联网公司,定位于高性能发烧手机。小米手机、MIUI、米聊是小米公司旗下三大核心业务。“为发烧而生”是小米的产品理念。小米公司首创了用互联网模式开发手机操作系统、发烧友参与开发改进的模式。2018年7月,工业和信息化部向与中国联合网络通信集团有限公司首批签约的15家企业发放了经营许可证,批准其经营移动通信转售业务,其中包括:小米科技有限责任公司。 2018年7月9日,正式登陆香港交易所主板 。

https://www.mi.com/
移动端深度学习技术

现阶段的移动端 APP 主要通过以下两种模式来使用深度学习: online 方式:移动端做初步预处理,把数据传到服务器执行深度学习模型,优点是这个方式部署相对简单,将现成的框架(Caffe,Theano,MXNet,Torch) 做下封装就可以直接拿来用,服务器性能大, 能够处理比较大的模型,缺点是必须联网。 offline 方式:在服务器上进行训练的过程,在手机上进行预测的过程。 当前移动端的三大框架(Caffe2、TensorFlow Lite、Core ML)均使用 offline 方式,该方式可在无需网络连接的情况下确保用户数据的私密性。

推荐文章
暂无评论
暂无评论~