Longformer

Bert不完全手册9. 长文本建模 BigBird & Longformer & Reformer & Performer

这一章我们来唠唠如何优化BERT对文本长度的限制。BERT使用的Transformer结构核心在于注意力机制强大的交互和记忆能力。不过Attention本身O(n^2)的计算和内存复杂度，也限制了Transformer在长文本中的应用。之前对长文档的一些处理方案多是暴力截断，或者分段得到文本表征后再进行融合。这一章我们看下如何通过优化attention的计算方式，降低内存/计算复杂度，实现长文本建模。Google出品的EfficientTransformers:ASurvey里面对更高效的Transformer魔改进行了分类，这一章我们主要介绍以下5个方向：以Transformer-XL为首的

Bert不完全手册9. 长文本建模 BigBird & Longformer & Reformer & Performer