Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

合合信息

一个基于序列的弱监督视觉信息抽取学习框架
一个基于序列的弱监督视觉信息抽取学习框架

视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称为TCPN(标签、复制或预测网络),它引入了1)一种有效的编码器,可以同时对二维OCR结果中的语义和布局信息进行建模;2)仅利用关键信息序列作为监督的弱监督训练策略;和3)一个灵活和可转换的解码器,其中包含两种推理模式:一种(复制或预测模式)是通过复制输入或预测一个标记来输出不同类别的关键信息序列,另一种(标记模式)是直接标记输入序列。本方法在几个公共基准上显示了最新的性能,充分证明了其有效性。

常用的表格检测识别方法-表格内容识别方法
常用的表格检测识别方法-表格内容识别方法

表格识别的研究主要涉及两个方面,一方面是对单元格内的文本进行识别,这一步通常是在确定单元格区域后,利用较为稳定的光学字符识别方法(OCR)来实现,这一方面不是表格识别研究的重点,不在此展开;另一方面是基于整个表格内容进行的表格分类、单元格分类、以及表格信息抽取等任务,这是当前表格识别研究的热门领域之一。下文会对表格信息抽取进行展开讲述。

【技术白皮书(2)】第三章第三节:端到端的文本检测与识别方法
【技术白皮书(2)】第三章第三节:端到端的文本检测与识别方法

CRAFTS中提出了一个端到端可训练的单pipeline模型,它紧密地耦合了检测和识别模块,共享阶段的字符区域注意充分利用字符区域映射,帮助识别器纠正和更好地关注文本区域。同时,设计了识别损耗通过检测阶段传播,提高了检测器的字符定位能力。此外,在共享阶段的纠正模块使弯曲文本的精细定位,并避免了手工设计后处理的需要。 实验结果验证了CRAFTS在各种数据集上的最新性能。

【技术白皮书(2)】第一章:基于深度学习的文本检测与识别的技术背景
【技术白皮书(2)】第一章:基于深度学习的文本检测与识别的技术背景

OCR全称Optical Character Recognition,即光学字符识别,最早在1929年被德国科学家Tausheck提出,定义为将印刷体的字符从纸质文档中识别出来。现在的OCR,狭义上指对输入扫描文档图像进行分析处理,识别出图像中文本信息。而随着OCR技术的日益发展,人们已不再仅仅满足于文档或书本上的文本,开始将目标转移到现实世界场景中的文本,这被称为场景文本识别(Scene Text Recognition,STR)。

【技术白皮书(2)】第二章:文本检测与识别技术发展历程
【技术白皮书(2)】第二章:文本检测与识别技术发展历程

文本识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印刷体或手写体文本进行读取识别,转化成计算机和人都能够识读的格式。此间OCR技术是关键一环。OCR技术中,印刷体的文本识别是最成熟的一个,因其开展最早。早在1929年就被欧美国家利用来处理大量的报刊杂志、文件和单据报表等。经过40多年的发展和完善,文本识别技术更加成熟,逐步实现了信息处理的“电子化”。

智能文字识别技术-弯曲矫正概述
智能文字识别技术-弯曲矫正概述

我们也希望这个变换是空间上平滑且连续的,这样能保证变换遵循物理模型,存在连续可逆的变换,使得我们的变换在数据合成等方面有更广泛的应用。和相似度损失函数类似,正则项在网络里也有多种实现方式,一种是通过对位移场直接进行空间梯度惩罚,一种则是通过对速度场进行约束后再通过积分层得到最终形变场,还有一种则是在训练过程中通过循环损失函数来实现...