力琴作者

重新认识AI落地,从小小词典笔看技术从0到1的工程实践

小小词典笔为何让人“上瘾”?机器之心试图通过采访,了解有道词典笔背后从 0 到 1 的工程实践。

距离有道词典笔 2 代发布的 1 年 3 个月之后,网易有道又推出了一款全新的有道词典 3,区别在于,将查词体验从扫描的交互方式直接简化到点一下就一秒钟完成查词。

网易有道产品负责人吴迎晖拿着全新的词典笔在现场做演示,无论是当天刊发的中国日报英文版、纸质书籍,还是护手霜、药盒,都可以快速点查陌生单词。“‘快速点查’是让你上瘾的一个功能。”他说。

当天发布会的产品体验区,这款词典笔很快引起了参会者的注意,人群熙熙攘攘地聚在体验区周围,迫不及待想要一睹词典笔究竟是什么样。

当我拿起词典笔想要找单词点读时,下意识直接将笔头指向单词的偏中间位置,很多未使用过有道词典笔的参会者几乎都犯了同样的操作错误,导致识别出来的单词大部分是不全的。

后来这种操作被现场工作人员指正,并被告知需要将笔头垂直放在所要识别单词的首个字母前面,才可以顺利完成点查。屡试体验碰壁,在掌握合适方法之后,我很快产生了上瘾查词的感觉。

在英语学习场景当中,辅助查词的产品就有电子词典、点读笔、点读机等。与这些传统产品不同的是,有道词典笔更依赖于人工智能,用技术解决场景需求。只不过,关于这款小小词典笔背后的技术与工程实践很少认真被讨论。

作为一家技术驱动产品的教育科技公司,借助有道词典等产品的 8 亿 + 用户,有道词典笔可以获得大规模文本、OCR 图像和语言的真实数据。自词典笔自 2017 年推出开始,与之相应的工程也在不断更新与迭代。

小小词典笔为何让人“上瘾”?机器之心试图通过采访,了解有道词典笔背后从 0 到 1 的工程实践。

01 一件冒险的事情

“‘超快点查’是吴迎晖的个人主意。”网易有道 CEO 周枫说。“他想到这个主意的时候,整个团队都很兴奋。”

超快点查是有道词典笔 3 的一大亮点,这将查词体验从扫描的交互方式直接简化到点一下就完成查词。

吴迎晖表示这个创新功能来自于对用户的洞察。实际上,从有道词典笔 1 代推出至今,产品团队几乎每天都能收到各种各样用户的反馈,这些反馈都指向一个核心问题,究竟如何更有效率。

他的点子立即点拨了团队的所有人,于是可视化互动点读也出来了。有道词典笔 3 的互动点读功能面向低年龄段儿童,将日常绘本实现动画效果,绘本还设有互动答题,可实现一句一跟读,AI 打分。尤其对于有孩子的用户而言,既要买词典,又要给孩子买点读产品,因此有道想做一款覆盖所有点读场景的智能化产品,用速度换取效率,给用户提供价值。

功能非常吸引人,但如何就需求和场景改设计、验证,挑战很大。“这个挺冒险的,万一不成功,坑的是整个团队。”有道词典笔的解决办法是加入超感光学系统,用视觉办法解决点读。

关于超感光学系统,有道官方的解释是:它兼容了 OCR(光学字符识别)与 OID(光学辨识码)两大 AI 技术的自动判断与识别,可同时识别红外光与可见光。

超感光学系统有非常大的广角,使其能够识别文字的区域更大,这构成了 “超快点查” 的基础条件。

“虽然这个功能非常实用且吸引人,但对算法挑战非常大。”网易有道首席科学家段亦涛说。广角镜头成像会产生畸变,另外,超感光学系统笔头也会导致光照不均。两者都会造成识别困难。

“在此条件下做 AI 模型是很难的事,业界没有现成的参考方案。”

实际上,无论是点查还是可视化点读,所采用的 OCR、OID 技术并不稀奇,难点在于,需要用算法挑战不可控环境下的识别;在有限的硬件条件下,集成不同产品和模块组合。

02 一年零三个月的改变:从模型到框架

为了解决畸变、光照不均等问题,有道开发了新的方案与模型,优化从图像采集、检测及识别的全过程。

直观而言,笔头的广角镜头会在短时间内采集图像,而图像是畸变的,在识别之前需要将畸变图像转换成无畸变图像。

为此,有道预设了理想条件图像到实际采集图像的变换关系,包括广角镜头的径向畸变和倾斜角度的投影畸变。

在点查功能触发后,有道使用预设的变化参数,修正图像的畸变;然后使用阈值化图像技术对阴影进行补偿。

所采集图像经去畸变、去阴影后,再进行图像增强,得到完整且可识别的图像。随后 OCR 负责 “看懂” 图像识别文字,TTS 负责词和句子的读音。整个过程在抬笔间就能完成,实现“超快点查”。

用户可以用词典笔在不同的场景识别不同的文字,比如化妆品的说明书、医药物品曲面等等。词典笔二代推出后,有道意识到用户对密集、弯曲、背景干扰等扫描场景下对模型准确率有更高的期待,因此,部署了更为精细的像素级别检测模型。

有道将图像上的每个像素位置进行前景文字和背景的分类,使用局部特征回归行高等位置信息,将所扫描的中心文字连接并组合成行,切分成用于识别的文本行。新的检测网络模型可将密集、弯曲的文字从各类复杂背景中检测出来。

在 “检测与识别” 的框架上,有道还增加了纠正模块,用于将特殊字体、形近字、背景干扰造成的误识别进行纠正。

基于有道海量的语言数据积累,有道针对词典笔学习场景构建了 N-gram 语言模型。

在训练阶段,有道使用语料库及对应图像数据同时训练识别模型和语言模型;在推理阶段,识别模型的解码能力易受字体和背景干扰,输出 “错误” 的识别结果。

例如图中所示的 “bredkfast”,原是错误拼写。但在语言模型的加持下,“错误” 的预测概率将会被抑制,由语言模型输出的转移概率作用在解码阶段,将更加符合语言规范的结果 “breakfast” 输出。

03 离线侧端的底层工程

相较于词典笔 2 代,词典笔 3 代在不联网的情况下,翻译引擎速度提升了 20%,平均的识别准确率达到了 98.3%,最高的准确率能达到 99%。

这些数据的体现,都要归功于词典笔内置的离线 OCR 和翻译模型。词典笔中的离线模型都是从线上模型演化而来,为了保证用户体验效果,都需要在端上进行推断。

点读笔的运行流程是先要扫描文字,再进行翻译、查词,离线模型当中就包含视觉模型和翻译模型。段亦涛表示,这些模型跟词典笔 2 代相比都有了升级。

笔头广角镜头的设计,给图像识别带来视觉畸变上的麻烦,因此,在视觉模型方面,有道做了检测和识别的模型的升级,并将 NLP 也融合到视觉模型中,可以帮助识别纠错。

图像识别后是翻译环节。翻译模型方面,有道做了语言的适配和优化,让翻译更加智能。由于翻译模型的输入是视觉识别模型的输出,不可避免会出现类似标点符号、形近字等错误。为此,在识别模型本身具备一定纠错能力的情况下,有道还为翻译模型做了一些容错的处理。

这些针对离线模型所做的优化,对词典笔底层的算力及内存提出了挑战。为了保证在给定算力的情况下实时运行,有道在模型上做了大量的优化。这些方法跟机器之心了解到的,针对词典笔 2 代离线模型的做法大致相同,将模型压缩渗透在训练、预测各个阶段。

有道还采用了模型裁剪、参数共享、知识蒸馏等办法降低模型大小。通过这些方面的优化,保证在不影响性能的情况下降低对运算资源的依赖,并对结果做更加精准地预测。

除了针对模型的优化与精简外,有道自研了离线推理框架,从以下几个方面优化推理性能:

  • 底层计算:手写 ARM NEON 汇编级优化,运行 Winograd 卷积算法,网络层合并;

  • 数据管理:重新设计数据排布,高效向量化,支持 FP32/FP16/INT8;

  • 异构平台:多核并行计算,支持 CPU/GPU,模型可以一键转换,自动裁剪;

在新计算引擎的支持下,整个链路的计算速度提升 20%。

“整个优化是从模型、框架、工程等各个层面全方位的升级。”段亦涛认为。

04 智能硬件的新变量

在升级词典笔视觉点读业务的同时,有道也在给其他业务提供视觉技术的支持。段亦涛向机器之心表示,有道有面向 B 端学校的项目,当中有一款硬件产品叫做有道智能学习终端,可以用于识别和收集错题。对视觉技术的要求极大。

随着人工智能技术对学习、教学场景的重塑日趋成熟,有道在技术方面也逐渐深入。网易有道在智能硬件相关的技术研发投入了很大的力量,在包括计算机视觉、自然语言处理、语音技术、高性能计算和异构计算,以及硬件研发方面都有深厚的积累。

目前重技术的智能硬件产品成为网易有道最为重要的业务版图。在第三季度财报中,智能硬件为有道贡献 1.631 亿元,同比增长 289.3%,首次超过广告业务。有道的学习型智能硬件正在爆发其巨大的商业变现潜力。

与此同时,诸如字节跳动、科大讯飞、搜狗等公司也在教育智能硬件市场展现其巨大的野心。对用户及教育企业而言,教育智能硬件能够有效弥补 PC 或 APP 端的交互体验、数据采集的不足,并有利于缓解获客成本,提高用户留存率。

究其各家的智能硬件产品,因切入的场景不同,教育硬件产品形态各异。无论是基于怎样的技术细节及基础,关键在于都需要结合用户需求,将场景做透,在此基础上,AI 能力、产品能力及内容缺一不可。

当下,有道词典笔凭借在技术、产品及内容上的优势已经成为万众瞩目的硬件产品。以后,有道词典笔会成为可复制的硬件吗?面对机器之心的提问,段亦涛表示,“好的东西肯定会有人模仿,至少我们的先发优势强。如果别人没有做过这个东西,一定会付出时间的代价。我们只要做到跑得比别人快。”

网易 CEO 丁磊曾在网易有道上市,及网易在港二次上市之时,向全国英语老师免费赠送有道词典笔,至少在这个环节,有道词典笔已经先抢下用户认知,让用户体验小小词典笔背后神奇的 AI 力量。

对于现在市场上推出的智能硬件产品,段亦涛有自己的理解,他拒绝从工具功能性角度解读,而是有更长远的认知。

“在真实学习场景中,学生需要在物理世界里留痕,因此任何智能工具,包括软硬件,都无法颠覆原有的学习过程。我们可以做到的是,通过智能硬件介入学生学习的物理世界中,让学习行为更加高效。同时通过获得学习过程中的数字化数据,逐步建立趋于成熟的数字化教学体系。”

从数字化角度看,网易有道是一家重算法的以技术驱动的教育科技公司。即使是百分之一的算法和框架优化,都能转化为巨大的商业与教育价值。每一小步突破,就是重构教育的一大步。

产业有道词典笔查词点读
相关数据
网易机构

网易成立于1997年6月24日,是中国领先的互联网技术公司,为用户提供免费邮箱、游戏、搜索引擎服务,开设新闻、娱乐、体育等30多个内容频道,及博客、视频、论坛等互动交流,网聚人的力量。

https://www.163.com/
参数技术

在数学和统计学裡,参数(英语:parameter)是使用通用变量来建立函数和变量之间关系(当这种关系很难用方程来阐述时)的一个数量。

光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

图像转换技术

图像到图像的转换是从一个域获取图像并对其进行转换以使它们具有来自另一个域的图像的样式(或特征)的任务。

准确率技术

分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

图像增强技术

图像增强技术用于增强图像中的有用信息,它可以是一个失真的过程,其目的是要改善图像的视觉效果,针对给定图像的应用场合。它通过有目的地强调图像的整体或局部特性,将原来不清晰的图像变得清晰或强调某些感兴趣的特征,扩大图像中不同物体特征之间的差别,抑制不感兴趣的特征,使之改善图像质量、丰富信息量,加强图像判读和识别效果,满足某些特殊分析的需要。

场景识别技术

场景识别是一类很常见的图像处理任务。就是给一张地标图像,快速准确地识别出这张图像的场景,识别的结果既可以是具体的地理位置,也可以是该场景的名称,还可以是数据库中的某个同样的场景。

量化技术

深度学习中的量化是指,用低位宽数字的神经网络近似使用了浮点数的神经网络的过程。

暂无评论
暂无评论~