Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

杜佳豪编辑

好未来AI团队斩获UbiComp 2020国际竞赛冠军,探索下一代字符识别技术

近日,全球人机交互普适计算领域顶级会议UbiComp2020(The ACM International Conference on Pervasive and Ubiquitous Computing)公布了竞赛成绩,好未来AI中台机器学习团队从全球50多支优秀参赛队伍中脱颖而出,以显著优势夺得冠军。

UbiComp竞赛是UbiComp2020会议的重要组成部分。该竞赛由UbiComp组织,埃尔兰根大学机器学习数据分析实验室、弗劳恩霍夫集成电路研究所联合主办。近几年,UbiComp的参会者及团队数量高速增长,其中不乏谷歌、亚马逊、微软、阿里巴巴腾讯等国内外领先互联网研究机构及企业。今年,埃尔朗根-纽伦堡大学、杜伊斯堡-埃森大学等50多支专业团队参赛。

本届竞赛以面向教育领域的前沿探索为主题,要求参赛者不依靠传统的图像识别技术,直接利用智能笔书写轨迹信息,并对相应的书写内容进行字符识别。经过两轮的激烈角逐,好未来AI中台机器学习团队最终获得冠军,向世界展现了中国教育AI技术的硬实力。

现阶段,OCR(光学字符识别)技术是大部分企业经常采用的文字识别技术,一般需要对书写的最终结果进行拍照后识别。但这一过程容易受光线、阴影、拍摄角度、清晰度等因素影响,且完全忽略了书写过程、动作及习惯等信息,导致识别结果不够精准。

比赛中,好未来机器学习团队完全不依赖OCR技术,而是使用E-RTCR模型,并融合两种前沿深度学习模型R-Transformer与CRNN,成功地捕获了智能笔中的多模态传感器信号、学习数据中的局部突变特征与整体趋势特征,即直接对智能笔的传感器原始数据,包括书写轨迹、角度、速度、加速度、停顿、笔画等书写过程进行建模识别。

相比使用OCR技术直接对图像进行分析,该方法克服了传感器信号极端抽象、不同人书写习惯迥异、多传感器信号分布差异大等难题。好未来机器学习团队最终以评分远超第二名的优异成绩夺冠。

(好未来机器学习团队以远超第二名的优异成绩夺冠)随着人们对教育体验提升的不断追求,智能笔等硬件设备逐渐开始在教学场景中投入使用。这类设备既能保留学生的纸面书写习惯和自然感受,又能保证书写轨迹、角度等信息被实时记录。好未来机器学习团队自主研发的、业内领先的基于传感器信号时间序列的字符识别技术,为教学场景的数据分析、内容识别、自动批改等打下了良好的基础。

加大科研投入,夯实研究能力

自成立以来,好未来始终秉承“爱和科技让教育更美好”的使命,致力于让每个人都能享有公平而有质量的教育,不断加大科技研发投入。2019 年 8 月,科技部批准依托好未来建设智慧教育国家新一代人工智能开放创新平台。

依托于智慧教育国家新一代人工智能开放创新平台,好未来AI中台不断加强底层学术能力的构建,在与国内外优秀高校保持密切科研学术合作的同时,也在各技术细分领域的全球最高学术舞台上,展示了中国教育AI的领先实力。如,好未来AI团队的数十项学术成果入选AAAI、WWW、AIED、NCME等国际顶级学术会议,获世界计算机视觉领域顶级会议CVPR-EmotioNet竞赛冠军。在纽约国际人工智能顶级会议AAAI上,好未来AI团队成功组织了首届AI for Education学术研讨会,推动教育AI领域的国际学术交流。

近年来,好未来AI中台不断取得前沿核心技术突破,并在语音技术、视觉理解、知识图谱等AI能力持续积累的基础上,实现多项技术的产品化应用,打造了包括AI课堂、教学过程评估、口语表达能力评测、作业拍搜批改等创新产品解决方案,覆盖“教、学、测、练、评”各教学环节。

截至目前,好未来已拥有100余项针对教育行业的AI能力。其中,行业领先及独有的模型数达到半数,周均调用量达到5亿以上。好未来表示,将持续向全行业开放AI+教育实践成果,全面赋能行业伙伴,共同推动实现公平而有质量的教育。

产业好未来字符识别UbiComp2020AIubicomp
相关数据
机器学习技术

机器学习是人工智能的一个分支,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、计算复杂性理论等多门学科。机器学习理论主要是设计和分析一些让计算机可以自动“学习”的算法。因为学习算法中涉及了大量的统计学理论,机器学习与推断统计学联系尤为密切,也被称为统计学习理论。算法设计方面,机器学习理论关注可以实现的,行之有效的学习算法。

人工智能技术

在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

光学字符识别技术

光学字符识别是指对文本资料的图像文件进行分析识别处理,获取文字及版面信息的过程。在这个过程中,手写的、打印的等多种类型的图像被转换为机器编码的文本,这些含有文字信息的图像可以是扫描而来,也可以是场景文本——如照片中出现的广告牌文字 (scene text),或者叠加在图像上的文字 (overlay text)——如电视节目中常见的字幕等等。光学字符识别是一种将印刷文本数字化的常用方法,可以对其进行电子编辑、搜索、更紧凑地存储、在线显示,并用于认知计算、机器翻译、(提取)文本到语音、 关键数据和文本挖掘。 OCR是模式识别人工智能和计算机视觉领域的一个重要的研究领域。

普适计算技术

普适计算是一个强调和环境融为一体的计算概念,而计算机本身则从人们的视线里消失。在普适计算的模式下,人们能够在任何时间、任何地点、以任何方式进行信息的获取与处理。普适计算是一个涉及研究范围很广的课题,包括分布式计算、移动计算、人机交互、人工智能、嵌入式系统、感知网络以及信息融合等多方面技术的融合。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

知识图谱技术

知识图谱本质上是语义网络,是一种基于图的数据结构,由节点(Point)和边(Edge)组成。在知识图谱里,每个节点表示现实世界中存在的“实体”,每条边为实体与实体之间的“关系”。知识图谱是关系的最有效的表示方式。通俗地讲,知识图谱就是把所有不同种类的信息(Heterogeneous Information)连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。 知识图谱这个概念最早由Google提出,主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎,知识图谱可用来更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。比如在Google的搜索框里输入Bill Gates的时候,搜索结果页面的右侧还会出现Bill Gates相关的信息比如出生年月,家庭情况等等。

人机交互技术

人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

阿里巴巴机构

阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的18人于1999年在浙江杭州创立的公司。

https://www.alibabagroup.com/
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
推荐文章
暂无评论
暂无评论~