Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

斩获鲁棒性阅读大赛两项冠军,ICDAR 2019冠军解决方案将开源

2019年6月,两年一届的国际文档分析与识别竞赛(ICDAR)落下帷幕,这是全球文字识别(OCR)领域最顶级赛事。北京航空航天大学张津津在本届比赛中斩获任意形状的场景文字端到端检测识别任务两项冠军,拉丁中文混排场景文字检测识别任务更是遥遥领先其他参赛队伍。

为推动任意形状文本检测识别技术发展做贡献,张津津将会开源本次斩获比赛第一名的项目及预训练模型,相文论文已在整理发表中。

项目地址:https://github.com/zhang0jhon/AttentionOCR

国际文档分析与识别大会ICDAR(International Conference on Document Analysis and Recognition)自1991年开始,今年为第十五届。自2003年大会开始设立技术竞赛,ICDAR竞赛因其极高技术难度和强大实用性,一直是各大科研院校、科技公司的竞逐焦点。

与赛后非正式刷榜不同,ICDAR官方认证的正式竞赛采用全新数据集,且赛期内不公布参赛团队信息和成绩,限制提交时间和次数,属于高难度“盲打”,吸引国内外众多队伍参赛。

2019届竞赛巨头云集,据赛后不完全统计,本届共有过百支队伍角逐,参赛队伍包括:(1)企业团队:腾讯、阿里、百度华为联想、平安、商汤、旷视、美团点评、科大讯飞、VIVO、北大方正、搜狗第四范式、合合信息、三星、Line,等;(2)学校团队:清华、北大、中科院、华中科大、复旦、上海交大、中科大、北航、南京大学、南京航空、华南理工、同济大学、哈工大、山东大学、四川大学、天津大学、卡耐基梅隆大学、澳洲阿德莱德大学等。

识别图像和视频中各类文字(OCR),是计算机视觉自然语言处理、个性化推荐等AI任务的基础技术。本届竞赛增加了多项中文和多语言识别任务,难度更高。北航张津津基于自研算法,共获得了两项第一名。

任务3.1:任意形状场景拉丁字母端到端检测识别任务冠军

任务3.2:任意形状场景混合文字端到端检测识别任务冠军

两项任务均难度极高,不仅需要支持横向、纵向、弯曲等任意形状的文本行检测识别,还需要支持中英文及符号混排场景文字检测识别,部分模型预测结果展示如下:模型预测结果示例图两项任务官方排名

个人简介

张津津,男,硕士,毕业于北京航空航天大学,目前主要从事于目标检测人体姿态估计,场景文字识别等计算机视觉相关工作。

产业鲁棒性ICDAR 2019
2
相关数据
搜狗机构

搜狗是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。从2004年8 月搜狐公司推出全球首个第三代互动式中文搜索引擎——搜狗搜索以来,历经十余载,搜狗搜索已发展成为中国第二大搜索引擎。根据艾瑞咨询2016年12月数据,搜狗PC用户规模达5.28亿,仅次于腾讯,成为中国第二大互联网公司。移动端APP用户仅次于腾讯,成为中国互联网快速发展的标杆性企业。

http://corp.sogou.com/
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商。

https://www.huawei.com/cn/
科大讯飞机构

科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,长期从事语音及语言、自然语言理解、机器学习推理及自主学习等核心技术研究并保持了国际前沿技术水平;积极推动人工智能产品研发和行业应用落地,致力让机器“能听会说,能理解会思考”,用人工智能建设美好世界。2008年,公司在深圳证券交易所挂牌上市。

http://www.iflytek.com
第四范式机构

第四范式成立于2014年9月,是企业人工智能的行业先驱者与领导者,中国以平台为中心的决策型AI市场的最大参与者。公司以“AI决策,企业转型新范式”为品牌理念,提供端到端的企业级人工智能解决方案,使企业实现人工智能快速规模化落地,发掘数据隐含规律,全面提升企业的决策能力。公司服务的行业包括但不限于金融、零售、制造、能源电力、电信及医疗。第四范式的产品旨在为企业提供端到端的人工智能解决方案,满足企业在AI建设过程中对应用、平台和基础设施的需求,让企业可以轻松构建量身定制的人工智能系统,将机器学习、应用、决策和评估的流程自动化,有着快速简易建模、提供低代码或无代码开发环境等特点。此外,第四范式还能为用户提供支撑人工智能应用运行的基础设施,即第四范式企业级软件定义算力平台。

https://www.4paradigm.com
计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

语言识别技术

在自然语言处理中,语言识别或语言猜测是确定给定内容所使用的自然语言的问题。针对该问题的计算方法被视为文本分类的特例,并用各种统计方法解决。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

百度网讯机构

北京百度网讯科技有限公司是百度旗下公司,拥有网页搜索、hao123、百度推广等多条业务线,致力于为用户提供“简单可依赖”的互联网搜索产品及服务。

http://www.baidu.com
Samsung Group机构

三星集团是韩国最大的跨国企业集团,同时也是上市企业全球500强,三星集团包括众多的国际下属企业,旗下子公司有:三星电子、三星物产、三星航空、三星人寿保险、雷诺三星汽车等,业务涉及电子、金融、机械、化学等众多领域。 三星集团成立于1938年,由李秉喆创办。三星集团是家族企业,李氏家族世袭,旗下各个三星产业均为家族产业,并由家族中的其他成员管理,集团领导人已传至 李氏第三代,李健熙为现任集团会长,其子李在镕任三星电子副会长。

联想集团机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币,由11名科技人员创办,是中国的一家在信息产业内多元化发展的大型企业集团,和富有创新性的国际化的科技公司。 从1996年开始,联想电脑销量一直位居中国国内市场首位;2005年,联想集团收购IBM PC(Personal computer,个人电脑)事业部;2013年,联想电脑销售量升居世界第一,成为全球最大的PC生产厂商。2014年10月,联想集团宣布了该公司已经完成对摩托罗拉移动的收购。 作为全球电脑市场的领导企业,联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。 自2014年4月1日起, 联想集团成立了四个新的、相对独立的业务集团,分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月,全国工商联发布“2016中国民营企业500强”榜单,联想名列第四。 2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第102。

旷视科技机构

旷视成立于2011年,是全球领先的人工智能产品和解决方案公司。深度学习是旷视的核心竞争力,我们打造出自研的AI生产力平台Brain++并开源其核心——深度学习框架“天元”,实现了算法的高效开发与部署。在持续引领技术进步的同时,我们推动AI产业的商业化落地,聚焦个人物联网、城市物联网、供应链物联网三大赛道,为个人用户带来更出色的美学体验与安全保障、让城市空间更有序、并帮助企业实现工业、仓储数字化升级。我们提供包括算法、软件和硬件产品在内的全栈式、一体化解决方案。

https://www.megvii.com
腾讯机构

腾讯,1998年11月诞生于中国深圳,是一家以互联网为基础的科技与文化公司。我们的使命是“通过互联网服务提升人类生活品质”。腾讯秉承着 “一切以用户价值为依归”的经营理念,为亿万网民提供优质的互联网综合服务。 腾讯的战略目标是“连接一切”,我们长期致力于社交平台与数字内容两大核心业务:一方面通过微信与QQ等社交平台,实现人与人、服务及设备的智慧连接;另一方面为数以亿计的用户提供优质的新闻、视频、游戏、音乐、文学、动漫、影业等数字内容产品及相关服务。我们还积极推动金融科技的发展,通过普及移动支付等技术能力,为智慧交通、智慧零售、智慧城市等领域提供有力支持。

http://www.tencent.com/
相关技术
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

人体姿态估计技术

人体姿态估计是计算机视觉领域的一个重要问题,主要用于跟踪一个人的每一个小动作并实时进行生物力学分析。

推荐文章
暂无评论
暂无评论~