一、简要介绍
视觉信息提取(VIE)近年来受到了越来越多的关注。现有的方法通常首先将光学字符识别(OCR)结果组织成纯文本,然后利用标记级实体注释作为监督来训练序列标记模型。但是,它花费大量的注释成本,可能导致标签混淆,OCR错误也会显著影响最终性能。在本文中,作者提出了一个统一的弱监督学习框架,称为TCPN(标签、复制或预测网络),它引入了1)一种有效的编码器,可以同时对二维OCR结果中的语义和布局信息进行建模;2)仅利用关键信息序列作为监督的弱监督训练策略;和3)一个灵活和可转换的解码器,其中包含两种推理模式:一种(复制或预测模式)是通过复制输入或预测一个标记来输出不同类别的关键信息序列,另一种(标记模式)是直接标记输入序列。本方法在几个公共基准上显示了最新的性能,充分证明了其有效性。
二、研究背景
随着信息交互的快速发展,文档智能处理引起了相当多的关注。视觉信息提取(VIE)技术作为其中的一个重要组成部分,已经被集成到许多实际应用程序中。现有的VIE方法通常首先根据阅读顺序将文本块(文本边界框和字符串,由ground truth提供或由OCR系统解析)组织成纯文本,并利用有效的编码结构,从多个模态(文本,版面,视觉等)中为每个输入字符提取出最有效的特征表示。
然而,字符级别的类别监督花费了巨大的注释成本,并可能导致标签歧义。给定一个如图1 (a)所示的文档图像,最广泛使用的注释方案是对每个话语的边界框和字符串进行标记,并进一步指出每个字符/框属于哪个类别,如图1 (b).所示这样,需要一个启发式的标签分配过程来训练上述标记模型,其核心思想是将检测到的边框和识别的转录与给定的注释进行匹配,然后为OCR结果的每个字符/边框分配标签。然而,这一过程可能主要会遇到两个方面的问题。首先,错误的识别结果会给匹配操作带来麻烦,特别是对关键信息序列。第二,重复的内容会带来标签的歧义。如图1(a)和(b)所示,三个内容相同的值可以作为关键总量的答案。在大多数情况下,很难建立一个统一的注释规范来确定哪一个应该被视为ground truth。
为了解决上述局限性,本文提出了一种端到端弱监督学习框架,该框架可以直接利用目标密钥信息序列来监督解码过程。它带来的好处主要是两方面:一是大大节省了注释成本,如图1 (c)所示,通过跳过OCR结果与ground truth的匹配,缩短了训练过程;其次,作者的方法通过自动学习OCR结果与ground truth的对齐来解决标签模糊问题,可以自适应地区分重复内容中最可能的结果。此外,作者还提出了一种灵活的解码器,它与作者的弱监督训练策略相结合,有两种可切换的模式——复制或预测模式(TCPN-CP)和标签模式(TCPN-T),以平衡其有效性和效率。在TCPN-CP中,作者的解码器可以通过从输入中复制一个标记或在每个时间步中预测一个标记来生成关键信息序列,这既可以保留输入中的新内容,也可以纠正OCR错误。在TCPN-T中,解码器可以在一次正向传递中直接将每个字符的表示标记为一个特定的类别,从而保持快速的速度。值得注意的是,作者的解码器只需要训练一次就可以在不同的模式下工作。
此外,作者提出了一种二维文档表示方法TextLattice以及相应的轻量级编码器结构来同时建模二维OCR结果中的语义和布局信息。
三、方法介绍
首先,作者描述了生成TextLattice的方法,以及如何编码更高级别的特征。接下来,介绍可切换解码器和弱监督训练策略的细节。最后,作者解释了何时以及如何在不同的模式下进行推理。图2给出了作者的方法的概述。
3.1文档表示
将OCR结果重新组织为作者的2D文档表示——TextLattice的整个过程总结为:首先对检测框的y坐标归一化处理,将检测框按照从左上到右下的顺序排列并划分为多行;接着,将文本段级别的框切分成字符级别的框,并微调x坐标避免重叠;最后,初始化一个全0矩阵,并在相应位置填入字符级映射向量。具体步骤见附录。
3.2 特征编码
作者使用ResNet结合U-Net结构作为特征编码器部分,以捕获更全面的特征。同时,为了更好的感知整体版面信息,本文借鉴CoordConv[4]的思想,额外将x和y方向上的相对位置坐标信息拼接到TextLattice中。特征编码的整个过程可以表述为:
3.3弱监督训练
如图2所示,首先提出了实体类别映射向量的概念,来控制解码器输出的信息类别,而其本身也是从一个预定义好的可训练的查找表矩阵中随用随取。给定该向量,解码器可以在每个时间步考虑当前需要生成的实体类别,并迭代预测得到信息序列。这种新颖的设计避免了特定于类的解码器,缓解了单一类语料库的不足,并将传统序列标记模型中不同类别之间的序列相关性解耦为并行。
在生成序列时,作者需要模型能够在从输入中复制字符或直接预测字符之间进行切换。复制操作使模型能够再现准确的信息并保留新词,而预测操作则引入了纠正OCR错误的能力。
然后,计算固定字典中字符的概率分布,生成一个复制分数作为软开关,在每个时间步t的不同操作之间进行选择:
这样,论文的方法就获得了产生词汇表外(OOV)字符的能力,并能够自适应地执行最优操作。
到目前为止,作者的方法可以看作是一个经过序列级监督训练的序列生成模型。但是,值得注意的是,由于给出了实体类别c的映射向量,当模型决定每一步从输入中复制一个字符ki时,F中的ki特征向量也应该被线性分类器归类为实体类别c。更一般地说,作者的方法可以首先学习对齐关系,然后使用匹配的字符训练分类器。这个创新的想法使作者的方法能够监督序列标记模型。作者采用线性层对实体概率分布进行建模,可以表述为:
值得注意的是,方程(11)-(13)并不训练不属于任何关键信息序列的标记。忽略负样本可能会导致严重的缺陷,即所有的输入字符都将被归类为正样本。因此,作者构造了一个额外的辅助损失函数,用于负样本压制负样本被预测为正样本的数量:
该损失函数的主要目的是限制分类为c的输入字符的数量小于或等于实际数量。这种简单而有效的设计大大提高了模型在标签模式下的性能。综上所述,最终的综合损失函数是上述多个分量的加权和:
3.4推理
值得注意的是,由于映射向量以批的形式发送到解码器中,因此可以根据实体特定的语义特征,在不同的模式下生成同一文档中不同类别的关键信息序列。在大多数现实场景中,OCR的结果不可能是完美的。在这方面,用户可以将作者的解码器切换到公式(3) – (9)中所述的复制或预测模式,以补充缺失或错误的标记。该模式更适合于具有较强语义相关性的类别序列。由于所提出的弱监督训练策略的自动对齐特性,解码器还可以使用公式(14)在标记模式中直接进行序列标记。它更倾向于极少的OCR错误或相邻内容之间语义相关性较弱的类别
四、实验4.1消融实验(Ablation Study)
作者首先将本文提出的文档编码方式和之前的主流方法进行对比,比较结果见表1。BiLSTM能很好地感知序列线索,但它不能有效地模拟一维形式的位置空间;GAT可以利用注意机制自适应地融合有用的特征。然而,捕获位置线索的能力很大程度上取决于特征嵌入的方式;BERT-like可以并行进行前向计算,由于加载了预训练的权值,取得了令人满意的性能;Chargrid采用更直接的方式建立输入矩阵,不能保证鲁棒性和效率。值得注意的是,TextLattice(作者的)取得了优越的性能和保持最快的速度,这充分证明了它的效率。比起位置嵌入GAT或BERT-like方法,作者的方法对位置线索的感知更直接和敏感,并确保了比Chargrid更高程度的信息集中度。
作者同样对编码器中的不同结构进行了消融实验。从表2中可以看出,每个设计对最终的性能都有重要的贡献。虽然CNN可以捕捉到相对位置关系,但CoordConv可以进一步提供相对于整个布局的全局位置线索,从而带来更高的分辨性;作者也尝试只在删除所有步幅和U-Net结构时使用ResNet来执行特征编码。但性能明显下降,说明了语义特征融合在不同接受域下的重要性;残差连接给了模型直接接收字符级语义嵌入的机会,进一步提高了性能。
4.2 与SOTA的比较
结果如表3所示,论文的方法在字符级全监督的情况下,在SROIE和EPHOIE上都表现出了优越的性能,这完全证明了作者的特征编码方法的有效性。此外,在序列级弱监督设置下的结果取得了竞争性能。这完全证实了作者的学习策略的优越性,它可以模拟输入字符和输出序列之间的对应关系。与SROIE相比,EPHOIE通常内容更少,字符类型更多,这减少了学习对齐的难度。相对而言,由于SROIE中的收据通常包含丰富的字符,而相同的字符可能会重复出现,这可能会导致对齐混淆,因此完全监督和弱监督之间的差距进一步扩大。
本文也在End-to-End Setting设置下进行了实验,结果如表4。作者的方法在每种模式下都显示了最先进的新性能。可以推断,选择TCPN-CP或TCPN-T模式的一个重要基础是语义和相应语料库的丰富性。在SROIE上,TCPN-CP的性能明显优于TCPN-T,这主要有利于纠错能力;然而,在EPHOIE上,尽管两种模式都优于TCPN-CP的TCPN-CP,主要原因应该是中文字符的多样性和由此导致的语料库的缺乏。
为了进一步探索作者的框架在现实世界的应用程序中的有效性,作者收集了一个内部的营业执照数据集。它包含了2331张由手机或相机拍摄的真实用户需求的照片,而且大部分图像都是倾斜、扭曲或亮度变化剧烈的。作者随机选择1863张图像进行训练,468张图像进行测试,其中有13种实体需要提取。此外,图片是由移动设备产生的,由于图像质量较差,它肯定包含OCR错误。具体结果见表5。作者的端到端弱监督学习框架大大优于传统的基于规则的匹配方法,这也大大降低了标注成本。与TCPN-T相比,TCPN-CP学习到的内隐语义相关性可以通过纠正OCR错误来进一步提高最终性能。一些定性的结果显示在附录中。
可视化结果如图:
五、总结与讨论
论文提出了一个统一的弱监督学习框架TCPN用于视觉信息提取,它引入了一种有效的编码器、一种新的训练策略和一种可切换的解码器。该方法在EPHOIE数据集上显示出了显著的提高和在SROIE数据集上的竞争性能,充分验证了其有效性。视觉信息提取任务处于自然语言处理和计算机视觉的跨领域,作者的方法旨在缓解对完整注释的过度依赖和OCR错误造成的负面影响。对于未来的研究,作者将通过大规模的无监督数据来探索作者的框架的潜力。这样,就可以进一步提高编码器的泛化、解码器的对齐能力和作者的TCPN-CP的性能。