AlignyourLatents:High-ResolutionVideoSynthesiswithLatentDiffusionModels0.来源本文是阅读论文后的个人笔记,适应于个人水平,叙述顺序和细节详略与原论文不尽相同,并不是翻译原论文。如果想了解所有细节,建议移步arxiv。论文地址:https://arxiv.org/abs/2304.08818项目地址:https://research.nvidia.com/labs/toronto-ai/VideoLDM/1.整体结构本文基于图像生成领域的典型框架LDM,扩展到视频生成领域,且保留了其以低计算成本,在压缩后的低维潜空间内生成高
论文:https://cdn.openai.com/papers/dall-e-2.pdf代码:https://github.com/lucidrains/DALLE2-pytorch摘要像CLIP这样的对比模型已经被证明可以学习稳健的图像表征,这些特征可以捕捉到语义和风格。为了利用这些表征来生成图像,我们提出了一个两阶段的模型:一个给定文本标题生成CLIP图像embedding的先验器,以及一个以图像embedding为条件生成图像的解码器。我们表明,明确地生成图像表征提高了图像的多样性,在逼真度和标题的相似度方面损失最小。我们以图像表征为条件的解码器也能产生图像的变化,保留其语义和风格,同
note文章目录note一、diffusion模型1.1StableDiffusion简介1.2和GAN对比的优势二、Latentdiffusionmodel原理2.1潜在空间(LantentSpace)2.2自动编码器和U-Net2.3文本编码器三、代码实践3.1模型权重checkpoints3.2StableDiffusionv1模型推理3.3安装StableDiffusionWebUiReference一、diffusion模型1.1StableDiffusion简介稳定扩散模型(StableDiffusionModel)是一种用于描述信息传播和创新扩散的数学模型。它基于经典的扩散方程,
LatentDiffusion论文笔记论文:High-ResolutionImageSynthesiswithLatentDiffusionModelshttps://arxiv.org/abs/2112.10752https://github.com/CompVis/latent-diffusion模型结构简单来说,就是先用一个编码器E\mathcal{E}E把图片压缩到隐空间(H×W×3→h×w×cH\timesW\times3\toh\timesw\timescH×W×3→h×w×c),然后让Diffusion模型ϵθ\epsilon_\thetaϵθ在压缩后的特征上工作,最后用解码器
High-ResolutionImageSynthesiswithLatentDiffusionModels(CVPR2022)https://arxiv.org/abs/2112.10752GitHub-CompVis/latent-diffusion:High-ResolutionImageSynthesiswithLatentDiffusionModelsGitHub-CompVis/stable-diffusion:Alatenttext-to-imagediffusionmodelAI作画近期取得如此巨大进展的原因个人认为有很大的功劳归属于StableDiffusion的开源。Sta
目录1.标题解读2.前言3.摘要部分4.引言部分 5.生成模型概述6.扩散模型的发展7.方法部分1.标题解读HierarchicalText-ConditionalImageGenerationwithCLIPLatents是一种层级式的基于CLIP特征的根据文本生成图像模型。层级式的意思是说在图像生成时,先生成64*64再生成256*256,最终生成令人叹为观止的1024*1024的高清大图。DALLE·2模型根据CLIP的文本特征和图像特征最终生成图像,可以看做CLIP的反向过程,因此DALLE·2被作者称为unCLIP2.前言022OpenAI提出DALLE2,根据文本描述生成原创性的、
目录1.标题解读2.前言3.摘要部分4.引言部分 5.生成模型概述6.扩散模型的发展7.方法部分1.标题解读HierarchicalText-ConditionalImageGenerationwithCLIPLatents是一种层级式的基于CLIP特征的根据文本生成图像模型。层级式的意思是说在图像生成时,先生成64*64再生成256*256,最终生成令人叹为观止的1024*1024的高清大图。DALLE·2模型根据CLIP的文本特征和图像特征最终生成图像,可以看做CLIP的反向过程,因此DALLE·2被作者称为unCLIP2.前言022OpenAI提出DALLE2,根据文本描述生成原创性的、
概括模型总述本篇论文主要介绍DALL·E2模型,它是OpenAI在2022年4月推出的一款模型,OpenAI在2021年1月推出了DALL·E模型,2021年年底推出了GLIDE模型。DALL·E2可以根据文本描述去生成原创性的、真实的图像,这些图像从来没有在训练集里出现过,模型真的学习到了文本图像特征,可以任意地组合其概念、属性、风格。DALL·E2除了根据文本生成图像,还能根据文本对已有的图像进行编辑和修改——可以任意添加或者移除图像里的物体,修改时甚至可以把阴影、光线和物体纹理都考虑在内。DALL·E2可以在没有文本输入的情况下,做一些图像生成的工作——比如给定一张图像,它可以根据已有的
概括模型总述本篇论文主要介绍DALL·E2模型,它是OpenAI在2022年4月推出的一款模型,OpenAI在2021年1月推出了DALL·E模型,2021年年底推出了GLIDE模型。DALL·E2可以根据文本描述去生成原创性的、真实的图像,这些图像从来没有在训练集里出现过,模型真的学习到了文本图像特征,可以任意地组合其概念、属性、风格。DALL·E2除了根据文本生成图像,还能根据文本对已有的图像进行编辑和修改——可以任意添加或者移除图像里的物体,修改时甚至可以把阴影、光线和物体纹理都考虑在内。DALL·E2可以在没有文本输入的情况下,做一些图像生成的工作——比如给定一张图像,它可以根据已有的
L2M-GAN:LearningtoManipulateLatentSpaceSemantics forFacialAttributeEditing2021CVPR L2M-GAN:LearningToManipulateLatentSpaceSemanticsforFacialAttributeEditing(thecvf.com)(个人理解,欢迎指正错误) Introduction 本文是一篇面部属性编辑的文章,虽然与人脸匿名是两个角度,但是任务是相通的。 面部属性编辑有两点要求:1、目标属性特征应当正确出现在编辑后的人脸上;2、任何不相关的面部特征均不应当在编辑后被修改。针对以上