CVPR

CVPR2023

CVPR2023录用论文CVPR2023统计数据：提交：9155篇论文接受：2360篇论文（接受率25.8%）亮点：235篇论文（接受论文的10%，提交论文的2.6%）获奖候选人：12篇论文（接受论文的0.51%，提交论文的0.13%）已接受论文列表（未决抄袭和双重提交检查）：GeneratingHumanMotionfromTextualDescriptionswithHighQualityDiscreteRepresentationJianrongZhang·YangsongZhang·XiaodongCun·YongZhang·HongweiZhao·HongtaoLu·XiSHEN·Y

CVPR 2023 br for Wang 计算机视觉人工智能图像处理

CVPR 2017|SfMLearner：单目视频中深度和姿态估计的无监督算法

🏆作者提出了一个单目相机的视频序列进行深度估计与运动估计，作者的方法是完全无监督的，端到端的学习，作者使用了单视角深度网络和多姿态网络，提出了一个图像（predict）与真实的下一帧（goundturth）计算loss，作为无监督的依据，实现无监督学习。使用KITTI数据集证明了他们的有效性：1.合成的深度图与监督学习的方法是可比的；2.在可比较的输入设置下，姿势估计与已建立的SLAM系统相比性能优越文章目录原理分析实施细节限制条件会议/期刊：CVPR2017论文题目：《UnsupervisedLearningofDepthandEgo-MotionfromVideo》论文链接：Unsuper

SfMLearner 姿态 span class vlist 音视频算法计算机视觉

点云 3D 目标检测 - CenterPoint：Center-based 3D Object Detection and Tracking（CVPR 2021）

点云3D目标检测-CenterPoint:Center-based3DObjectDetectionandTracking-基于中心的3D目标检测与跟踪（CVPR2021）摘要1.导言2.相关工作3.准备工作4.CenterPoint4.1两阶段CenterPoint4.2体系结构5.实验5.1主要结果5.2消融研究6.结论ReferencesA.跟踪算法B.实施详细信息C.nuScene跨类性能D.nuScenes检测挑战声明：此翻译仅为个人学习记录文章信息标题：Center-based3DObjectDetectionandTracking(CVPR2021)作者：TianweiYin,X

Center-based CenterPoint span class xff0c 深度学习

SadTalker（CVPR2023）-音频驱动视频生成

文章目录摘要算法3.1.Preliminaryof3DFaceModel3D3.2.MotionCoefficientsGenerationthroughAudioExpNetPoseVAE3.3.3D-awareFaceRender实验SOTA实验消融实验ExpNetPoseVAEFaceRender限制结论论文：《SadTalker:LearningRealistic3DMotionCoefficientsforStylizedAudio-DrivenSingleImageTalkingFaceAnimation》github：https://github.com/Winfredy/Sad

SadTalker 驱动 span class vlist 音视频 CVPR2023 动画生成

【论文阅读】【论文复现】Image Disentanglement Autoencoder for Steganography without Embedding（IDEAS）-CVPR-2022

参考链接：[CVPR2022]基于图像解耦生成的无嵌入隐写-知乎这篇论文介绍的很好信息隐藏|ImageDisentanglementAutoencoderforSteganographywithoutEmbedding实现无嵌入隐写的图像无纠缠自动隐写器代码：https://github.com/Lemok00/IDEAS无嵌入隐写（steganographywithoutembedding,SWE）隐藏秘密信息的过程不会直接修改载体图像，因此具有免疫传统隐写分析器攻击的独特优势。现有无嵌入隐写可以分为两类：基于映射的SWE通过设计映射机制，将秘密信息转换为从现有图像集中选取的图像哈希序列，其

复现论文 xff xff0c strong 论文阅读 embedding

2023 CVPR PoseFormerV2: Exploring Frequency Domain for Efficient and Robust3D Human Pose Estimation

源码 https://github.com/QitaoZhao/PoseFormerV2摘要最近，基于变换的方法在连续的2D到3D提升人体姿态估计中取得了显着的成功。作为一项开创性的工作，PoseFormer捕获了每个视频帧中人体关节的空间关系以及级联Transformer层跨帧的人体动态，并取得了令人印象深刻的性能。然而，在真实的场景中，PoseFormer及其后续产品的性能受到两个因素的限制：（a）输入关节序列的长度;（B）二维联合检测的质量。现有方法通常对输入序列的所有帧施加自关注，当为了获得更高的估计精度而增加帧数目时会造成巨大的计算负担，并且它们对2D联合检测器有限的能力所带来的噪声

PoseFormerV2 PoseFormerV xff xff0c xff0 3d 深度学习计算机视觉 transformer

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

虽然我从来没见过你，但是我有可能「认识」你——这是人们希望人工智能在「一眼初见」下达到的状态。为了达到这个目的，在传统的图像识别任务中，人们在带有不同类别标签的大量图像样本上训练算法模型，让模型获得对这些图像的识别能力。而在零样本学习（ZSL）任务中，人们希望模型能够举一反三，识别在训练阶段没有见过图像样本的类别。生成式零样本学习（GZSL）是实现零样本学习的一种有效方法。在生成式零样本学习中，首先需要训练一个生成器来合成未见类的视觉特征，这个生成过程是以前面提到的属性标签等语义描述为条件驱动的。有了生成的视觉特征作为样本，就可以像训练传统的分类器一样，训练出可以识别未见类的分类模型。生成器的

语义学习能力样本 span 视觉人工智能新闻 AI 训练

【CVPR】闻声识人FaceChain-ImagineID，从音频中想象出说话人脸，FaceChain团队出品

一、概览论文：FaceChain-ImagineID:FreelyCraftingHigh-FidelityDiverseTalkingFacesfromDisentangledAudio，https://arxiv.org/abs/2403.01901 本文提出了一个新的说话人脸生成任务，即直接从音频中想象出符合音频特征的多样化动态说话人脸，而常规的该任务需要给定一张参考人脸。具体来说，该任务涉及到两个核心的挑战，首先如何从音频中解耦出说话人的身份（性别、年龄等语义信息以及脸型等结构信息）、说话内容以及说话人传递的情绪，其次是如何根据这些信息生成多样化的符合条件的视频，同时保持

闻声 FaceChain xff0c xff0 xff 人工智能深度学习 AIGC ImagineID 说话人生成

《Masked Image Training for Generalizable Deep Image Denoising》——CVPR23论文阅读笔记

Projectpage:https://github.com/haoyuc/MaskedDenoising前提：在捕获和存储图像时，设备不可避免地会引入噪声。减少这种噪声是一项关键任务，称为图像去噪。深度学习已经成为图像去噪的事实方法，尤其是随着基于Transformer的模型的出现，这些模型在各种图像任务上都取得了显著的最新成果。核心问题：基于深度学习的方法去噪缺乏泛化能力。如何提高深度学习去噪泛化能力，使适应更广泛的场景。方法：提出一种新的方法来提高去噪网络的泛化性能，称为掩码训练。其包括在训练期间掩蔽输入图像的随机像素并重建丢失的信息，屏蔽了自我注意层中的特征，以避免训练-测试不一致性的

Image mdash xff0c xff0 xff 论文阅读笔记

（2022|CVPR，非自回归，掩蔽图像生成，迭代译码）MaskGIT：掩蔽生成式图像 Transformer

MaskGIT:MaskedGenerativeImageTransformer公和众和号：EDPJ（进Q交流群：922230617或加VX：CV_EDPJ进V交流群）目录0.摘要3.方法3.1训练中的掩蔽视觉标记建模（MaskedVisualTokenModeling，MVTM）3.2迭代解码3.3掩蔽设计4.实验0.摘要生成式Transformer 在计算机视觉社区中经历了迅速的流行增长，用于合成高保真度和高分辨率的图像。然而，迄今为止最好的生成式Transformer 模型仍然将图像简单地视为一系列标记，并按照光栅扫描顺序（即逐行）顺序解码图像。我们发现这种策略既不是最优的，也不是高效的

掩蔽生成 xff0c xff transformer 深度学习计算机视觉生成对抗网络

12 3 4