xlnet_JJZJJ

Bert不完全手册4. 绕开BERT的MASK策略？XLNET & ELECTRA

基于随机tokenMASK是Bert能实现双向上下文信息编码的核心。但是MASK策略本身存在一些问题MASK的不一致性：MASK只在预训练任务中存在，在微调中不存在，Bert只是通过替换部分的随机MASK来降低不一致性的影响独立性假设：对MASK的预测是基于独立概率而不是联合概率，模型并不会考虑MASK之间的条件关联MASK训练低效：每次只遮盖15%的token，每个batch的模型更新只基于这15%的input，导致模型训练效率较低MASK有这么多的问题，那能否绕过MASK策略来捕捉双向上下文信息呢？下面介绍两种方案XLNET，Electra，它们使用两种截然不同的方案实现了在下游迁移的En

Bert不完全手册4. 绕开BERT的MASK策略？XLNET & ELECTRA