distillation

论文笔记|CVPR2023:Supervised Masked Knowledge Distillation for Few-Shot Transformers

这篇论文的题目是用于小样本Transformers的监督遮掩知识蒸馏论文接收：CVPR2023论文地址：https://arxiv.org/pdf/2303.15466.pdf代码链接：https://github.com/HL-hanlin/SMKD1Motivation1.ViT在小样本学习（只有少量标记数据的小型数据集）中往往会过拟合，并且由于缺乏归纳偏置而导致性能较差；2.目前很多方法使用自监督学习和监督学习来缓解这个问题，但是没有方法能很好平衡监督和自监督两个的学习目标；3.最近提出的自监督掩蔽知识蒸馏方法在各个领域的Transfomrers取得了先进的效果。2Ideas提出了一种新

Farm3D- Learning Articulated 3D Animals by Distilling 2D Diffusion论文笔记

Farm3D:LearningArticulated3DAnimalsbyDistilling2DDiffusion1.Introduction最近的研究DreamFusion表明，可以通过text-imagegenerator提取高质量的三维模型，尽管该生成模型并未经过三维训练，但它仍然包含足够的信息以恢复三维形状。在本文中，展示了通过文本-图像生成模型可以获取更多信息，并获得关节模型化的三维对象类别。也就是说，我们的目标不是提取单个的三维单元（DreamFusion），而是一个整个关节三维对象类别的统计模型（例如：牛，羊，马），能够通过单个图像（真实或合成）重建一个可动的三维单元，可以轻松

OpenAI的Whisper蒸馏：蒸馏后的Distil-Whisper速度提升6倍

1Distil-Whisper诞生Whisper是OpenAI研发并开源的一个自动语音识别（ASR，AutomaticSpeechRecognition）模型，他们通过从网络上收集了68万小时的多语言（98种语言）和多任务（multitask）监督数据对Whisper进行了训练。OpenAI认为使用这样一个庞大而多样的数据集，可以提高模型对口音、背景噪音和技术术语的识别能力。除了可以用于语音识别，Whisper还能实现多种语言的转录，以及将这些语言翻译成英语。目前，Whisper已经有了很多变体，也成为很多AI应用构建时的必要组件。最近，来自HuggingFace的团队提出了一种新变体——Di

一文搞懂【知识蒸馏】【Knowledge Distillation】算法原理

知识蒸馏算法原理精讲文章目录知识蒸馏算法原理精讲1.什么是知识蒸馏？2.轻量化网络的方式有哪些？3.为什么要进行知识蒸馏？3.1提升模型精度3.2降低模型时延，压缩网络参数3.3标签之间的域迁移4.知识蒸馏的理论依据？5.知识蒸馏分类5.1目标蒸馏-Logits方法5.2特征蒸馏方法6.知识蒸馏的过程6.1升温(T)操作6.2温度(T)特点7.蒸馏损失计算过程8.知识蒸馏在NLP/CV中的应用8.1目标蒸馏-Logits方法应用8.2特征蒸馏方法应用9.知识蒸馏的误区参考文献1.什么是知识蒸馏？知识蒸馏就是把一个大的教师模型的知识萃取出来，把他浓缩到一个小的学生模型，可以理解为一个大的教师神经

【论文笔记】SDCL: Self-Distillation Contrastive Learning for Chinese Spell Checking

文章目录论文信息Abstract1.Introduction2.Methodology2.1TheMainModel2.2ContrastiveLoss2.3ImplementationDetails(Hyperparameters)3.Experiments代码实现个人总结值得借鉴的地方论文信息论文地址：https://arxiv.org/pdf/2210.17168.pdfAbstract论文提出了一种token-level的自蒸馏对比学习(self-distillationcontrastivelearning)方法。1.Introduction传统方法使用BERT后，会对confusi

Distil-Whisper：比Whisper快6倍，体积小50%的语音识别模型

内容来源：@xiaohugggDistil-Whisper：比Whisper快6倍，体积小50%的语音识别模型该模型是由HuggingFace团队开发，它在Whisper核心功能的基础上进行了优化和简化，体积缩小了50%。速度提高了6倍。并且在分布外评估集上的字错误率(WER)不超过1%。它还可以作为Whisper的助手模型用于推测性解码，速度提高了2倍。主要优点：速度-Distil-Whisper的推理速度是Whisper的6倍。尺寸-模型大小减少了49%，更适合资源有限的设备。准确性-词错误率（WER）与Whisper相比只有1%的差距。抗噪声-在嘈杂环境下仍能保持较高的识别准确性。减少

知识蒸馏(Knowledge Distillation)

论文：[1503.02531]DistillingtheKnowledgeinaNeuralNetwork(arxiv.org)知识蒸馏是一种模型压缩方法，是一种基于“教师-学生网络思想”的训练方式，由于其简单，有效，并且已经在工业界被广泛应用。知识蒸馏使用的是Teacher—Student模型，其中teacher是“知识”的输出者，student是“知识”的接受者。知识蒸馏的过程分为2个阶段: ①原始模型训练:训练"Teacher模型",简称为Net-T，它的特点是模型相对复杂，也可以由多个分别训练的模型集成而成。我们对"Teacher模型"不作任何关于模型架构、参数量、是否

知识蒸馏（Knowledge Distillation）

知识蒸馏是做什么的？知识蒸馏的概念由Hinton在DistillingtheKnowledgeinaNeuralNetwork中提出，目的是把一个大模型或者多个模型集成学到的知识迁移到另一个轻量级模型上。KnowledgeDistillation，简称KD，顾名思义，就是将已经训练好的模型包含的知识(Knowledge)，蒸馏(Distill)提取到另一个模型里面去。简而言之，就是模型压缩的一种方法，是一种基于“教师-学生网络思想”的训练方法。做模型压缩的原因：一般情况下，我们在训练模型的时候使用了大量训练数据和计算资源来提取知识，但是大模型不方便部署到服务中去，一是因为大模型的推理速度慢，二

论文阅读：Image-to-Lidar Self-Supervised Distillation for Autonomous Driving Data

目录摘要Motivation整体架构流程技术细节雷达和图像数据的同步小结论文地址: [2203.16258]Image-to-LidarSelf-SupervisedDistillationforAutonomousDrivingData(arxiv.org)论文代码：GitHub-valeoai/SLidR:OfficialPyTorchimplementationof"Image-to-LidarSelf-SupervisedDistillationforAutonomousDrivingData"摘要自动驾驶汽车的图像到雷达自我监督蒸馏。在自动驾驶中两项重要任务：分割或检测稀疏激

论文笔记--Distilling the Knowledge in a Neural Network

论文笔记--DistillingtheKnowledgeinaNeuralNetwork1.文章简介2.文章概括3文章重点技术3.1SoftTarget3.2蒸馏Distillation4.文章亮点5.原文传送门1.文章简介标题：DistillingtheKnowledgeinaNeuralNetwork作者：Hinton,Geoffrey,OriolVinyals,JeffDean日期：2015期刊：arxiv2.文章概括文章提出了一种将大模型压缩的新的思路：蒸馏distillation。通过蒸馏，可以将很大的模型压缩为轻量级的模型，从而提升推理阶段的速率。3文章重点技术3.1SoftT