Conditioned

106、Text-Image Conditioned Diffusion for Consistent Text-to-3D Generation

简介很多工作在扩散先验中注入跨视图一致性，但仍然缺乏细粒度的视图一致性。论文提出的文本到3d的方法有效地减轻了漂浮物(由于密度过大)和完全空白空间(由于密度不足)的产生。实现过程简单而言，论文工作是Dreamfusion+Zero123。使用两种不同的分数蒸馏进行监督:文本条件下的多视图扩散模型（维护文本的多视图一致性）和图像条件下的新视图扩散模型（维护视图之间的一致性）。对于3D表示，实现了threeststudio的隐式体积方法，该方法由多分辨率哈希网格和用于预测体素密度和RGB值的MLP网络组成文本条件下的多视图扩散模型对一组相机姿势c进行采样，并渲染这些视图x=g(φ，c)，

【论文阅读】Speech Driven Video Editing via an Audio-Conditioned Diffusion Model

DiffusionVideoEditing：基于音频条件扩散模型的语音驱动视频编辑code：GitHub-DanBigioi/DiffusionVideoEditing:Officialprojectrepoforpaper"SpeechDrivenVideoEditingviaanAudio-ConditionedDiffusionModel"paper：[2301.04474]SpeechDrivenVideoEditingviaanAudio-ConditionedDiffusionModel(arxiv.org)目录1介绍2背景3方法3.2模型架构3.3数据处理4实验5结论 1介绍本文