BERT_JJZJJ

Bert不完全手册7. 为Bert注入知识的力量 Baidu-ERNIE & THU-ERNIE & KBert

借着ACL2022一篇知识增强Tutorial的东风，我们来聊聊如何在预训练模型中融入知识。Tutorial分别针对NLU和NLG方向对一些经典方案进行了分类汇总，感兴趣的可以去细看下。这一章我们只针对NLU领域3个基于实体链接的知识增强方案Baidu-ERNIE，THU-ERNIE和K-Bert来聊下具体实现~知识增强KnowledgeisanyexternalinformationabsentfromtheinputbuthelpfulforgeneratingtheoutputTutorial里一句话点题，知识就是不直接包含在当前文本表达中的，但是对文本理解起到帮助作用的补充信息，大体可

Bert不完全手册7. 为Bert注入知识的力量 Baidu-ERNIE & THU-ERNIE & KBert

借着ACL2022一篇知识增强Tutorial的东风，我们来聊聊如何在预训练模型中融入知识。Tutorial分别针对NLU和NLG方向对一些经典方案进行了分类汇总，感兴趣的可以去细看下。这一章我们只针对NLU领域3个基于实体链接的知识增强方案Baidu-ERNIE，THU-ERNIE和K-Bert来聊下具体实现~知识增强KnowledgeisanyexternalinformationabsentfromtheinputbuthelpfulforgeneratingtheoutputTutorial里一句话点题，知识就是不直接包含在当前文本表达中的，但是对文本理解起到帮助作用的补充信息，大体可

amp ERNIE 本表 1326688 的人工智能

【机器学习】李宏毅——自监督式学习

1、BERT简介首先需要介绍什么是自监督学习。我们知道监督学习是有明确的样本和对应的标签，将样本丢进去模型训练并且将训练结果将标签进行比较来修正模型，如下图：而自监督学习就是没有标签也要自己创建监督学习的条件，即当前只有样本x但是没有标签\(\hat{y}\)，那具体的做法就是将样本x分成两部分\(x\prime\)和\(x\prime\prime\)，其中一部分作为输入模型的样本，另一部分来作为标签：如果觉得很抽象也没关系，请继续往下阅读将会逐渐清晰这个定义。1.1、BERT的maskingBERT的架构可以简单地看成跟Transformer中的Encoder的架构是相同的（可以参考我这篇文

李宏 mdash strong BERT 的人工智能

【机器学习】李宏毅——自监督式学习

1、BERT简介首先需要介绍什么是自监督学习。我们知道监督学习是有明确的样本和对应的标签，将样本丢进去模型训练并且将训练结果将标签进行比较来修正模型，如下图：而自监督学习就是没有标签也要自己创建监督学习的条件，即当前只有样本x但是没有标签\(\hat{y}\)，那具体的做法就是将样本x分成两部分\(x\prime\)和\(x\prime\prime\)，其中一部分作为输入模型的样本，另一部分来作为标签：如果觉得很抽象也没关系，请继续往下阅读将会逐渐清晰这个定义。1.1、BERT的maskingBERT的架构可以简单地看成跟Transformer中的Encoder的架构是相同的（可以参考我这篇文

李宏 mdash strong BERT 的人工智能

Bert不完全手册6. Bert在中文领域的尝试 Bert-WWM & MacBert & ChineseBert

这一章我们来聊聊在中文领域都有哪些预训练模型的改良方案。Bert-WWM，MacBert，ChineseBert主要从3个方向在预训练中补充中文文本的信息：词粒度信息，中文笔画信息，拼音信息。与其说是推荐帖，可能更多需要客观看待以下'中文'改良的在实际应用中的效果~Bert-WWMTakeAway:WholeWordMasking全词掩码Paper：Bert-WWM，Pre-TrainingwithWholeWordMaskingforChineseBERTGithub：https://github.com/ymcui/Chinese-BERT-wwm全词掩码并不是中文的专属，而是google

amp Bert 的 li https 人工智能

Bert不完全手册6. Bert在中文领域的尝试 Bert-WWM & MacBert & ChineseBert

这一章我们来聊聊在中文领域都有哪些预训练模型的改良方案。Bert-WWM，MacBert，ChineseBert主要从3个方向在预训练中补充中文文本的信息：词粒度信息，中文笔画信息，拼音信息。与其说是推荐帖，可能更多需要客观看待以下'中文'改良的在实际应用中的效果~Bert-WWMTakeAway:WholeWordMasking全词掩码Paper：Bert-WWM，Pre-TrainingwithWholeWordMaskingforChineseBERTGithub：https://github.com/ymcui/Chinese-BERT-wwm全词掩码并不是中文的专属，而是google

amp Bert 的 li https 人工智能

Bert不完全手册5. BERT推理提速？训练提速!内存压缩！Albert

Albert是ALiteBert的缩写，确实Albert通过词向量矩阵分解，以及transformerblock的参数共享，大大降低了Bert的参数量级。在我读Albert论文之前，因为Albert和蒸馏，剪枝一起被归在模型压缩方案，导致我一直以为Albert也是为了优化Bert的推理速度，但其实Albert更多用在模型参数（内存）压缩，以及训练速度优化，在推理速度上并没有提升。如果说蒸馏任务是把Bert变矮瘦，那Albert就是把Bert变得矮胖。正在施工中的文本分类库里也加入了Albert预训练模型，有在chinanews上已经微调好可以开箱即用的模型，同时支持半监督，领域迁移，降噪los

提速训练的 Albert 人工智能

Bert不完全手册5. BERT推理提速？训练提速!内存压缩！Albert

Albert是ALiteBert的缩写，确实Albert通过词向量矩阵分解，以及transformerblock的参数共享，大大降低了Bert的参数量级。在我读Albert论文之前，因为Albert和蒸馏，剪枝一起被归在模型压缩方案，导致我一直以为Albert也是为了优化Bert的推理速度，但其实Albert更多用在模型参数（内存）压缩，以及训练速度优化，在推理速度上并没有提升。如果说蒸馏任务是把Bert变矮瘦，那Albert就是把Bert变得矮胖。正在施工中的文本分类库里也加入了Albert预训练模型，有在chinanews上已经微调好可以开箱即用的模型，同时支持半监督，领域迁移，降噪los

提速训练的 Albert 人工智能

跟着李沐老师做BERT论文逐段精读（笔记）

论文地址；中文翻译；代码地址；视频地址；本篇大部分内容来源。只做整理补充，推荐去看李沐老师原视频，讲的真的很好建议学习顺序：5min全局理解->李沐老师论文讲解->图解or手推BERT->代码讲解，都强力安利图解BERT真的非常适合过完论文对每一个小part都有所感受以后做整体串联！！我可太喜欢这个up了1-标题+作者BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstandingpre-training:在一个大的数据集上训练好一个模型pre-training，模型的主要任务是用在其它任务training上dee

精读笔记 li strong BERT 人工智能

跟着李沐老师做BERT论文逐段精读（笔记）

论文地址；中文翻译；代码地址；视频地址；本篇大部分内容来源。只做整理补充，推荐去看李沐老师原视频，讲的真的很好建议学习顺序：5min全局理解->李沐老师论文讲解->图解or手推BERT->代码讲解，都强力安利图解BERT真的非常适合过完论文对每一个小part都有所感受以后做整体串联！！我可太喜欢这个up了1-标题+作者BERT:Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstandingpre-training:在一个大的数据集上训练好一个模型pre-training，模型的主要任务是用在其它任务training上dee

精读笔记 li strong BERT 人工智能