Controllable

Text2Avatar: Text to 3D Human Avatar Generation with Codebook-Driven Body Controllable Attribute

Q:这篇论文试图解决什么问题？A:这篇论文试图解决的问题是如何从文本描述直接生成具有多属性可控性和现实风格的3D人类化身（avatar）。具体来说，它面临的挑战包括：特征耦合：在直接从文本生成3D人类模型时，不同属性（如性别、衣服长度、颜色等）之间可能存在特征耦合，使得同时满足多个属性要求变得困难。现实风格3D人类化身数据集的稀缺性：现有的3D人类模型数据集往往缺乏现实风格的数据，这限制了生成模型能够学习到的样式和细节。为了解决这些问题，论文提出了Text2Avatar方法，它通过以下方式来实现目标：使用离散代码本（discretecodebook）作为中间特征：这有助于解耦特征，使得模型能够

【CVPR 2022】解读 Controllable Animation of Fluid Elements in Still Images：光流法视频生成

DiffusionModels视频生成-博客汇总前言：用户输入箭头，就能让图像动起来，这是经典的Animating任务。CVPR2022中的一篇经典论文《ControllableAnimationofFluidElementsinStillImages》使用光流法做这种image-to-video任务，很多做法值得借鉴，这篇博客详细这篇论文。目录贡献概述方法详解

光流 Controllable 22 blockquote margin-left 音视频计算机视觉人工智能视频生成

[23] IPDreamer: Appearance-Controllable 3D Object Generation with Image Prompts

pdfText-to-3D任务中，对3D模型外观的控制不强，本文提出IPDreamer来解决该问题。在NeRFTraining阶段，IPDreamer根据文本用ControlNet生成参考图，并将参考图作为Zero1-to-3的控制条件，用基于Zero1-to-3的SDS损失生成粗NeRF。在MeshTraining阶段，IPDreamer将NeRF用DMTet转换为3DMesh，并分别优化Mesh的几何与纹理。1）用参考图的法向图编码作为控制信号，用IPSD(ImagePromptScoreDistillation)优化3DMesh的几何；2）用渲染rgb图像编码（和法向图差异）作为控制信号

Appearance-Controllable Controllable xff0c xff img 3d

Temporal Modulation Network for Controllable Space-Time Video Super-Resolution阅读笔记

TemporalModulationNetworkforControllableSpace-TimeVideoSuper-Resolution可控时空视频超分辨率的时间调制网络论文：https://arxiv.org/pdf/2104.10642v2.pdf代码：https://github.com/CS-GangXu/TMNet研究机构：南开、中科院、腾讯优图本篇笔记主要对整篇论文从头到尾进行阅读分析，本文内容有点多，主要是对不同部分的总结以及图例解释，如果只对模型原理部分有兴趣，可直接观看第四部分。本文为了详细说明各图、公式在各组件中的情况，所以对原文图片、公式做了切割和拼接，保证该内容

Super-Resolution Controllable xff xff0c xff0 深度学习超分辨率重建视频优化