Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

百度联合主办OCR领域顶级AI竞赛ICDAR 2019,上百支精英团队挑战超高难度文字识别

Macintosh HD:Users:sunyipeng:Downloads:屏幕快照 2019-02-15 下午5.34.40.png

百度联合马来亚大学、华南理工大学、西班牙巴塞罗那自治大学-计算机视觉中心、中国图象图形学会主办的ICDAR 2019-LSVT(Large-scale Street View Text with Partial Labeling,弱标注大规模街景文字)、ICDAR 2019-ArT(Arbitrary-Shaped Text,任意形状场景文字)国际权威竞赛任务于5月圆满结束。此次竞赛共吸引来自业界顶尖技术团队、高校及科研机构共118支团队参赛,有效提交结果总计339个。经过两个月的激烈角逐,ICDAR 2019-ArT竞赛五项子任务的冠军分别由中科院(文字检测)、旷视(Latin文字识别)、韩国NAVER(Latin中文混合文字识别)、北京航空航天大学(Latin文字、Latin中文混合端到端文字识别)获得,ICDAR 2019-LSVT竞赛文字检测和端到端文字识别两项任务冠军由腾讯DPPR团队获得。

精英荟聚ICDAR2019  桂冠引群雄争夺 

ICDAR“Robust Reading Competitions”竞赛是评估自然场景/网络图片/复杂视频文本提取与智能识别新技术进展的权威国际赛事及评测标准,竞赛中涌现出诸多方法持续推动业界新技术的创新与应用。在ICDAR2019百度发布的两项极具挑战的竞赛任务中, ICDAR 2019-LSVT竞赛数据包括5万张精标注街景图像、40万张弱标注街景图像,聚焦探索大规模数据场景下深度学习文字识别能力极限。ICDAR2019-ArT竞赛数据总计10176张,是业界最大的任意形状场景文字集合,聚焦推动自然场景下任意形状文字检测识别能力新突破。

各工业界与学术界顶尖团队充分发挥各自技术优势,针对竞赛任务不断优化创新方案与算法效果,经过激烈角逐的比赛结果展现出大规模街景文字识别深度学习、任意形状文字检测与识别技术新高度。百度联合学术界将持续对该竞赛集合及榜单进行维护,为推进相关视觉AI技术领域不断发展贡献力量。

Macintosh HD:Users:sunyipeng:Downloads:LSVT_example.png图1. ICDAR 2019-LSVT竞赛结果示例:人工标注 vs 算法效果Macintosh HD:Users:sunyipeng:Downloads:ArT_example.png图2. ICDAR 2019-ArT竞赛结果示例:人工标注 vs 算法效果

百度OCR实力强劲多场景应用实践丰富

此次ICDAR 2019国际竞赛任务推动了大规模街景深度学习文字识别及任意形状文字识别方向的发展,是一场学术交流与技术碰撞的盛宴。而在ICDAR 2019国际竞赛中,百度OCR承担竞赛组织者角色,这也进一步加强了百度的国际影响力。

百度曾在2015至2019年期间多次获得ICDAR 2013、 ICDAR 2015、ICDAR 2017-MLT、ICDAR2017-RCTW权威集合检测、识别、端到端各项任务榜单第一,处于业内领先水平。近两年来,百度OCR也多次在CVPR,ICCV,BMVC,ACCV,ICDAR等会议上发表论文,此次ICDAR 2019有两篇新工作被接收。"An End-to-end Video Text Detector with Online Tracking" 致力于解决视频OCR检测问题,将视频文字检测和在线跟踪任务高效集成到统一、可训练的网络框架中。"EATEN: Entity-aware Attention for Single Shot Visual Text Extraction"提出端到端的结构化信息提取方法,同时公开了结构化信息提取领域的大型数据集合。

百度不仅致力于OCR技术领域的纵深研究,同时也是“领先且实用AI视觉技术”的坚定实践者。多年实践经验积累形成了丰富的百度OCR产品矩阵。通用系列文字识别能力不仅能高精度的识别文字,还支持中、英、日、韩、法等十国语言的识别以及置信度、位置等信息的返回;卡证识别能力不仅支持对身份证、银行卡、护照、名片等常见卡证的识别,还支持卡证采集、分类、属性判断等能力;票据识别能力不仅支持财务场景全品类识别,还支持金融、医疗等场景票据识别;针对终端文字识别场景,百度领先的模型压缩技术应用于所有OCR终端产品,OCR终端SDK与多家手机厂商达成合作,将识字能力赋予手机。目前,百度OCR产品能力已超50项,在各行业实现了诸多技术突破与产品落地,覆盖了财务、银行、医疗、政法、教育、交通、电商、快递等场景。

未来,百度会与各企业持续探索OCR的落地可能性,让OCR赋能更多企业,同时也将持续秉持普惠的价值理念,在产业实践中不断打磨,持续赋能服务客户,持续打造领先且实用的AI技术,用科技的力量让复杂的世界更简单。

更多竞赛详情请见官网:

ICDAR 2019-LSVT:http://rrc.cvc.uab.es/?ch=16

ICDAR 2019-ArT:http://rrc.cvc.uab.es/?ch=14

产业百度OCRICDAR 2019文字识别
1
相关数据
深度学习技术

深度学习(deep learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。 深度学习是机器学习中一种基于对数据进行表征学习的算法,至今已有数种深度学习框架,如卷积神经网络和深度置信网络和递归神经网络等已被应用在计算机视觉、语音识别、自然语言处理、音频识别与生物信息学等领域并获取了极好的效果。

计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

百度智能云机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

http://www.baidu.com
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
推荐文章
暂无评论
暂无评论~