斩获鲁棒性阅读大赛两项冠军,ICDAR 2019冠军解决方案将开源

2019年6月,两年一届的国际文档分析与识别竞赛(ICDAR)落下帷幕,这是全球文字识别(OCR)领域最顶级赛事。北京航空航天大学张津津在本届比赛中斩获任意形状的场景文字端到端检测识别任务两项冠军,拉丁中文混排场景文字检测识别任务更是遥遥领先其他参赛队伍。

为推动任意形状文本检测识别技术发展做贡献,张津津将会开源本次斩获比赛第一名的项目及预训练模型,相文论文已在整理发表中。

项目地址:https://github.com/zhang0jhon/AttentionOCR

国际文档分析与识别大会ICDAR(International Conference on Document Analysis and Recognition)自1991年开始,今年为第十五届。自2003年大会开始设立技术竞赛,ICDAR竞赛因其极高技术难度和强大实用性,一直是各大科研院校、科技公司的竞逐焦点。

与赛后非正式刷榜不同,ICDAR官方认证的正式竞赛采用全新数据集,且赛期内不公布参赛团队信息和成绩,限制提交时间和次数,属于高难度“盲打”,吸引国内外众多队伍参赛。

2019届竞赛巨头云集,据赛后不完全统计,本届共有过百支队伍角逐,参赛队伍包括:(1)企业团队:腾讯、阿里、百度华为联想、平安、商汤、旷视、美团点评、科大讯飞、VIVO、北大方正、搜狗第四范式、合合信息、三星、Line,等;(2)学校团队:清华、北大、中科院、华中科大、复旦、上海交大、中科大、北航、南京大学、南京航空、华南理工、同济大学、哈工大、山东大学、四川大学、天津大学、卡耐基梅隆大学、澳洲阿德莱德大学等。

识别图像和视频中各类文字(OCR),是计算机视觉自然语言处理、个性化推荐等AI任务的基础技术。本届竞赛增加了多项中文和多语言识别任务,难度更高。北航张津津基于自研算法,共获得了两项第一名。

任务3.1:任意形状场景拉丁字母端到端检测识别任务冠军

任务3.2:任意形状场景混合文字端到端检测识别任务冠军

两项任务均难度极高,不仅需要支持横向、纵向、弯曲等任意形状的文本行检测识别,还需要支持中英文及符号混排场景文字检测识别,部分模型预测结果展示如下:模型预测结果示例图两项任务官方排名

个人简介

张津津,男,硕士,毕业于北京航空航天大学,目前主要从事于目标检测人体姿态估计,场景文字识别等计算机视觉相关工作。

产业ICDAR 2019鲁棒性
2
相关数据
搜狗机构

搜狗是中国互联网领先的搜索、输入法、浏览器和其它互联网产品及服务提供商。从2004年8 月搜狐公司推出全球首个第三代互动式中文搜索引擎——搜狗搜索以来,历经十余载,搜狗搜索已发展成为中国第二大搜索引擎。根据艾瑞咨询2016年12月数据,搜狗PC用户规模达5.28亿,仅次于腾讯,成为中国第二大互联网公司。移动端APP用户仅次于腾讯,成为中国互联网快速发展的标杆性企业。 搜狗在产品上追求技术创新,紧跟时代步伐,强调战略布局。经过长期摸索和反复尝试,目前形成了以搜索引擎、输入法和浏览器为主,以通话管理、地图、智能硬件等产品为辅的产品布局。

http://corp.sogou.com/
华为机构

华为创立于1987年,是全球领先的ICT(信息与通信)基础设施和智能终端提供商,致力于把数字世界带入每个人、每个家庭、每个组织,构建万物互联的智能世界。目前华为有19.4万员工,业务遍及170多个国家和地区,服务30多亿人口。

https://www.huawei.com/cn/
科大讯飞机构

科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。自成立以来,长期从事语音及语言、自然语言理解、机器学习推理及自主学习等核心技术研究并保持了国际前沿技术水平;积极推动人工智能产品研发和行业应用落地,致力让机器“能听会说,能理解会思考”,用人工智能建设美好世界。2008年,公司在深圳证券交易所挂牌上市(股票代码:002230)。

http://www.iflytek.com
第四范式机构

第四范式成立于2014年,是国际领先的人工智能平台提供商,利用机器学习技术,帮助企业提升效率、降低风险,获得更大的商业价值。第四范式坚持以“Empower AI Transformation and Inspire AI For Everyone”为企业愿景,依托于AutoML、迁移学习等技术与企业级人工智能PaaS平台,不断推动人工智能快速、规模化的产业落地。目前,第四范式已在银行、保险、政务、能源、智能制造、零售、医疗、证券等领域积累超过上万个AI落地案例,助力各行各业AI创新变革。

https://www.4paradigm.com/
计算机视觉技术

计算机视觉(CV)是指机器感知环境的能力。这一技术类别中的经典任务有图像形成、图像处理、图像提取和图像的三维推理。目标识别和面部识别也是很重要的研究领域。

语言识别技术

在自然语言处理中,语言识别或语言猜测是确定给定内容所使用的自然语言的问题。针对该问题的计算方法被视为文本分类的特例,并用各种统计方法解决。

自然语言处理技术

自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

百度机构

百度是全球最大的中文搜索引擎,是一家互联网综合信息服务公司,更是全球领先的人工智能平台型公司。2000年1月1日创立于中关村,公司创始人李彦宏拥有“超链分析”技术专利,也使中国成为美国、俄罗斯、和韩国之外,全球仅有的4个拥有搜索引擎核心技术的国家之一。

https://www.baidu.com/
三星机构

三星集团是韩国最大的跨国企业集团,同时也是上市企业全球500强,三星集团包括众多的国际下属企业,旗下子公司有:三星电子、三星物产、三星航空、三星人寿保险、雷诺三星汽车等,业务涉及电子、金融、机械、化学等众多领域。 三星集团成立于1938年,由李秉喆创办。三星集团是家族企业,李氏家族世袭,旗下各个三星产业均为家族产业,并由家族中的其他成员管理,集团领导人已传至 李氏第三代,李健熙为现任集团会长,其子李在镕任三星电子副会长。

联想机构

联想集团是1984年中国科学院计算技术研究所投资20万元人民币,由11名科技人员创办,是中国的一家在信息产业内多元化发展的大型企业集团,和富有创新性的国际化的科技公司。 从1996年开始,联想电脑销量一直位居中国国内市场首位;2005年,联想集团收购IBM PC(Personal computer,个人电脑)事业部;2013年,联想电脑销售量升居世界第一,成为全球最大的PC生产厂商。2014年10月,联想集团宣布了该公司已经完成对摩托罗拉移动的收购。 作为全球电脑市场的领导企业,联想从事开发、制造并销售可靠的、安全易用的技术产品及优质专业的服务,帮助全球客户和合作伙伴取得成功。联想公司主要生产台式电脑、服务器、笔记本电脑、智能电视、打印机、掌上电脑、主板、手机、一体机电脑等商品。 自2014年4月1日起, 联想集团成立了四个新的、相对独立的业务集团,分别是PC业务集团、移动业务集团、企业级业务集团、云服务业务集团。2016年8月,全国工商联发布“2016中国民营企业500强”榜单,联想名列第四。 2018年12月,世界品牌实验室编制的《2018世界品牌500强》揭晓,排名第102。

旷视机构

北京旷视科技有限公司是一家行业领先的人工智能公司,在深度学习方面拥有核心竞争力。旷视向客户提供包括先进算法、平台软件、应用软件及内嵌人工智能功能的物联网设备的全栈式解决方案,并在多个行业取得领先地位。2017年和2019年,旷视跻身《麻省理工科技评论》发布的两项「50大最聪明公司」榜单中。 旷视是全球为数不多的拥有自主研发深度学习框架的公司之一,旷视自研的深度学习框架MegEngine作为旷视人工智能算法平台Brain++的核心组件,为算法训练、部署及模型改进过程提供重要支持。 旷视总部位于北京,拥有 2,000 多名员工,并在北京、上海、南京、成都等地都设有研发中心。旷视的典型客户包括金融科技公司、银行、智能手机公司、第三方系统集成商、物业管理者、学校、物流公司及制造商等。

https://www.megvii.com/
腾讯机构

腾讯科技股份有限公司(港交所:700)是中国规模最大的互联网公司,1998年11月由马化腾、张志东、陈一丹、许晨晔、曾李青5位创始人共同创立,总部位于深圳南山区腾讯大厦。腾讯由即时通讯软件起家,业务拓展至社交、娱乐、金融、资讯、工具和平台等不同领域。目前,腾讯拥有中国国内使用人数最多的社交软件腾讯QQ和微信,以及中国国内最大的网络游戏社区腾讯游戏。在电子书领域 ,旗下有阅文集团,运营有QQ读书和微信读书。

http://www.tencent.com/
目标检测技术

一般目标检测(generic object detection)的目标是根据大量预定义的类别在自然图像中确定目标实例的位置,这是计算机视觉领域最基本和最有挑战性的问题之一。近些年兴起的深度学习技术是一种可从数据中直接学习特征表示的强大方法,并已经为一般目标检测领域带来了显著的突破性进展。

人体姿态估计技术

人体姿态估计是计算机视觉领域的一个重要问题,主要用于跟踪一个人的每一个小动作并实时进行生物力学分析。

推荐文章
暂无评论
暂无评论~