LayoutLMv3

LayoutLMv3:Pre-trainingforDocumentAIwithUnifiedTextandImageMaskingABSTRACT自监督预训练技术在文档人工智能方面取得了显着的进步。大多数多模态预训练模型使用掩码语言建模目标来学习文本模态的双向表示，但它们在图像模态的预训练目标上有所不同。这种差异增加了多模态表示学习的难度。在本文中，我们提出LayoutLMv3来通过统一的文本和图像掩码来预训练文档AI的多模态Transformer。此外，LayoutLMv3还使用单词补丁对齐目标进行了预训练，通过预测文本单词的相应图像补丁是否被屏蔽来学习跨模态对齐。简单的统一架构和训练目标