jjzjj

tinyBERT

全部标签

BERT系列: tinyBERT 介绍与代码训练。

前情提要:CSDN上一篇文章讲述了BERT的全流程,但我们要做的是复现tinyBERT。BERT是一个大家族,里面有BERT-Tiny,BERT-Base,BERT-large等等。他们的主要区别仅仅是结构不一样,但是我们今天复现的tinyBERT是和他们不一样的,他的BERT在后面。这就决定了它不只是结构不同,训练方式也是不同的。结构差异:    为了介绍结构的差异,我们先来读一个BERT的设置文档BERTconfig,一个config便可以决定一个BERT的结构。{"hidden_size":384,#决定token被编码的长度,即特征长度"intermediate_size":1536,