Auto Byte

专注未来出行及智能汽车科技

微信扫一扫获取更多资讯

Science AI

关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展

微信扫一扫获取更多资讯

合合信息

【技术白皮书(2)】第三章第三节:端到端的文本检测与识别方法
【技术白皮书(2)】第三章第三节:端到端的文本检测与识别方法

CRAFTS中提出了一个端到端可训练的单pipeline模型,它紧密地耦合了检测和识别模块,共享阶段的字符区域注意充分利用字符区域映射,帮助识别器纠正和更好地关注文本区域。同时,设计了识别损耗通过检测阶段传播,提高了检测器的字符定位能力。此外,在共享阶段的纠正模块使弯曲文本的精细定位,并避免了手工设计后处理的需要。 实验结果验证了CRAFTS在各种数据集上的最新性能。

【技术白皮书(2)】第一章:基于深度学习的文本检测与识别的技术背景
【技术白皮书(2)】第一章:基于深度学习的文本检测与识别的技术背景

OCR全称Optical Character Recognition,即光学字符识别,最早在1929年被德国科学家Tausheck提出,定义为将印刷体的字符从纸质文档中识别出来。现在的OCR,狭义上指对输入扫描文档图像进行分析处理,识别出图像中文本信息。而随着OCR技术的日益发展,人们已不再仅仅满足于文档或书本上的文本,开始将目标转移到现实世界场景中的文本,这被称为场景文本识别(Scene Text Recognition,STR)。

【技术白皮书(2)】第二章:文本检测与识别技术发展历程
【技术白皮书(2)】第二章:文本检测与识别技术发展历程

文本识别,俗称光学字符识别,英文全称是Optical Character Recognition(简称OCR),它是利用光学技术和计算机技术把印刷体或手写体文本进行读取识别,转化成计算机和人都能够识读的格式。此间OCR技术是关键一环。OCR技术中,印刷体的文本识别是最成熟的一个,因其开展最早。早在1929年就被欧美国家利用来处理大量的报刊杂志、文件和单据报表等。经过40多年的发展和完善,文本识别技术更加成熟,逐步实现了信息处理的“电子化”。

智能文字识别技术-弯曲矫正概述
智能文字识别技术-弯曲矫正概述

我们也希望这个变换是空间上平滑且连续的,这样能保证变换遵循物理模型,存在连续可逆的变换,使得我们的变换在数据合成等方面有更广泛的应用。和相似度损失函数类似,正则项在网络里也有多种实现方式,一种是通过对位移场直接进行空间梯度惩罚,一种则是通过对速度场进行约束后再通过积分层得到最终形变场,还有一种则是在训练过程中通过循环损失函数来实现...

Marior去除边距和迭代内容矫正用于自然文档矫正
Marior去除边距和迭代内容矫正用于自然文档矫正

作者提出了一种简单而有效的方法,Marior,以从粗到细的方式为变形文档图像矫正。作者采用两个级联模块,首先去除文档图像的边缘,然后对内容进行进一步的修正。所提出的Marior自适应地决定了迭代的次数,从而实现了效率和性能之间的权衡。作者提出的方法不仅在DocUNet [25]和OCR_REAL [23]基准数据集上取得了最先进的性能,而且成功地解决了具有大边缘区域的情况和没有边缘区域的情况,这在以往的研究中研究较少。这是在自然文档矫正方面的一个重大成功。在今后的工作中,有必要探索对这两个模块进行端到端优化,以获得更好的性能。

【技术白皮书】第三章:事件信息抽取的方法
【技术白皮书】第三章:事件信息抽取的方法

事件抽取(EE)是信息抽取研究中的一个重要而富有挑战性的课题。事件作为一种特殊的信息形式,是指在特定时间、特定地点发生的涉及一个或多个参与者的特定事件,通常可以描述为状态的变化。事件提取任务旨在将此类事件信息从非结构化的纯文本中提取为结构化的形式,主要描述现实世界中事件发生的“谁、何时、何地、什么、为什么”和“如何”。在应用方面,该任务便于人们检索事件信息,分析人们的行为,促进信息检索、智能问答、知识图谱构建等实际应用。