Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

零代码、自动化、定制训练文字识别:百度EasyDL发布OCR自训练平台

文字识别技术 OCR 是最早应用于企业降本增效的 AI 方向之一,如今已逐渐下沉为企业智能化升级的一项重要基础设施能力。

10 月 29 日,百度智能云线上线下同期举办了 TechDay OCR 技术创新沙龙,深度分享 OCR 产品矩阵、功能、应用案例等最新进展,并重磅全新发布 EasyDL OCR 自训练平台。泰康保险集团、北京融汇金信等企业伙伴在现场分享了 OCR 在企业内的应用经验和心得。百度智能云 OCR 产品为企业打造了技术领先、类型丰富同时支持便捷自定制的解决方案,已广泛应用于金融服务、财税报销、快递物流、法律政务、交通出行、教育培训、内容审核等全行业领域,加快推动企业实现产业智能化升级。

业界首发 EasyDL OCR 自训练平台,低成本满足 OCR 定制化需求

近年来,OCR 的识别能力不断突破,逐渐在更加复杂的数字化场景发挥作用,有效降低信息提取和录入的人力成本,帮助企业专注于上层业务应用。与此同时,企业对于 OCR 识别模型定制化的需求日益旺盛,包括 OCR 在特定场景下是否有高精度识别效果、能否高效响应自身业务需求、是否能在模型训练过程中保证数据安全,以上三点成为行业共性诉求。

为满足企业快速定制 OCR 识别模型的诉求,EasyDL OCR 自训练平台应运而生。据介绍,EasyDL OCR 自训练平台具有两大核心产品功能,即自动训练 OCR 和定制化训练 OCR;同时具备三大产品特性,包括内置成熟 OCR 技术方案,预置经过真实业务检验的多种自动化机制,如智能标注、自动数据预处理、虚拟数据生成等,同时还开放了调参能力,满足多种场景 OCR 模型定制训练需求,保证高准确率;可视化模型训练,预置领先的 OCR 算法,可实现零门槛模型训练,高效响应业务需求;支持本地私有化部署,数据无需出厂,有效保障数据安全。

 会上,EasyDL OCR 产品负责人还分别演示了自动化训练 OCR 和定制化训练 OCR 模型训练过程,并在最后总结了适合应用的不同场景和优势。

具体而言,自动化训练 OCR 每个版式仅需 1 张训练图片,「智能标注」功能支持快速标注关键字段,显著提升标注效率,系统自动完成模板分类,可应用于版式多样、识别特定字段、图像质量统一的场景,同时模型重训功能支持新增版式的快速扩充。定制化训练 OCR 则具有数据自动生成能力,可模拟各类真实场景中复杂数据状况,如模糊、变形、缺角等,少量标注数据即可获得更高的识别准确率,可应用于版式固定、全字段识别、图片质量复杂的场景。

百度 OCR「技术 + 产品 + 应用」行业领先,助力企业智能化升级

百度 OCR 是国内应用最广泛的文字识别服务,依托业界领先的深度学习技术和海量优质数据,提供多场景、多语种、高精度的文字检测与识别服务,并针对图片模糊、倾斜、翻转等情况进行深度优化,鲁棒性强,多项 ICDAR 指标居世界第一,通用、主流卡证识别准确率高达 99%。

 而其背后正是由百度 AI 核心技术引擎——百度大脑支撑,如今升级到 6.0 的百度大脑已成为 AI 新型基础设施。从基础层的算力、数据、飞桨深度学习平台,到感知层的语音、视觉、AR/VR,再到认知层的语言与知识,以及平台层的 AI 平台与生态,百度大脑始终保持核心技术持续领先,不断夯实 “软硬一体 AI 大生产平台”,并通过百度智能云整合输出产品服务,加速产业智能转型升级。截至目前,百度大脑已经开放了 273 项 AI 能力,凝聚超过 230 万开发者,培养了超过 100 万 AI 人才,在众多行业领域落地应用,推动了中国 AI 技术研发、实践应用与生态建设。

产业智能化升级一个核心前提就是,信息数字化和结构化。OCR 作为最早应用于企业效率提升的 AI 方向之一,显著提升了信息提取和录入的效率,实现了信息处理的「电子化}、「自动化」,为上层业务应用提供有力支撑。

据现场介绍,百度 OCR 技术经过多年沉淀和实践打磨,在多项行业竞赛评比当中持续摘得桂冠。例如:2019 年从 90 多支参赛队伍中脱颖而出,获得中国最高等级商业领域人工智能技术竞赛唯一 A 级别证书;在 OCR 领域最具影响力的 ICDAR 19 MLT (多语种 task) 榜单当中获得文字检测领域世界冠军;。同时,百度 OCR 也在不断推进算法创新和突破,引领行业技术发展,例如:发布了业界最大的中文 OCR 数据集,首次提出端到端 OCR - 部分监督算法 End2End-PSL,实现精标数据 + 弱标数据的混合训练,克服精标数据成本高问题,使得标注成本降低至 1/90。 

依托百度大脑领先的深度学习技术,百度 OCR 已开放全系列 50 多款产品,不仅可以实现通用场景的文字识别,还可满足各类垂直场景的信息电子化、结构化识别需求,例如财务票据识别、医疗票据识别、教育场景的公式识别和试卷识别等等。

打破封闭研发生态,积极赋能企业在具体场景落地

作为保险医疗领域的代表,泰康保险集团科技研究院、图文分析实验室负责人刘兴旺在会上表示:“如何提高理赔效率,降低成本成为各大保险公司非常关注的一点。基于百度 OCR 识别提取各类医疗票据 / 单据字段信息的技术能力,我们共同首创的端到端关系识别模型,整个质检分类准确率可达到 97%,实际复杂生产环境中的结构化识别准确率可达 86%,大大节约了人力成本,同时显著提升了理赔业务效率。”

北京融汇金信信息技术有限公司创始人罗彤从金融服务的角度发表了自己的看法,他讲到:「金融主要做的两件事其实就是,需要大量数据进行预测,以及大量文档、图片等信息进行客户服务。而百度 OCR 提供的解决方案,可以让我们把数据和知识打通,解决人工录入信息出错率高、效率低等行业痛点的同时,能够显著节约成本、得到更加精准的预测结果,同时提升整体业务效率。」据悉,在金融服务领域,百度 OCR 已在银行、保险、证券、信贷、支付等场景应用落地。

除此之外,百度 OCR 还已广泛应用于财税报销、快递物流、法律政务、交通出行、教育培训、内容审核等众多领域,为企业降本增效,提升用户体验。例如:代账公司借助百度 OCR,为中小企业提供智能报账服务,大幅提升业务流程效率;中国移动设计院使用百度 OCR 对内部报账系统进行智能化改造,20 分钟的人工填报流程缩短至 1 分多钟;在快递物流领域,则可以综合应用 OCR、NLP 地址识别、语音识别等多项 AI 能力,提升分拣、配送效率及用户使用体验。

目前,使用百度 OCR 的用户已超过 70 万。未来,百度 OCR 作为百度智能云服务的重要一环,在百度大脑领先技术的支持下,将持续快速迭代,不断优化产品服务,探索更多应用场景,同时赋能更多合作伙伴,助力企业开启智能化升级快速通道,创造更大价值。

产业百度EasyDL
相关数据
感知层技术

IoT (物联网) 三层结构中的一层,用于识别物体,采集信息等感知类的任务;另外两层是应用层(Application layer)和网络层(Network layer)。

语音识别技术

自动语音识别是一种将口头语音转换为实时可读文本的技术。自动语音识别也称为语音识别(Speech Recognition)或计算机语音识别(Computer Speech Recognition)。自动语音识别是一个多学科交叉的领域,它与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连。由于语音信号的多样性和复杂性,目前的语音识别系统只能在一定的限制条件下获得满意的性能,或者说只能应用于某些特定的场合。自动语音识别在人工智能领域占据着极其重要的位置。

推荐文章
暂无评论
暂无评论~