北航、微软亚研院提出TableBank:基于图像的表格检测与识别基准
近日,北航、微软亚研院的研究者提出TableBank,一种新的基于图像的表格检测和识别数据集。该数据集是通过对网上的Word和Latex文档进行弱监督建立的。现在基于图像的表格检测和识别研究通常是对在域外数据上预训练得到的模型进行精调,这种域外数据通常只包含数千个人为标记的示例,因而难以泛化到现实世界应用上。通过此包含417K张高质量标记表格的TableBank数据集,研究者利用深度神经网络SOTA模型建立了数个强大的基线。TableBank项目地址:https://github.com/doc-analysis/TableBank。