CVPR2023录用论文CVPR2023统计数据:提交:9155篇论文接受:2360篇论文(接受率25.8%)亮点:235篇论文(接受论文的10%,提交论文的2.6%)获奖候选人:12篇论文(接受论文的0.51%,提交论文的0.13%)已接受论文列表(未决抄袭和双重提交检查):GeneratingHumanMotionfromTextualDescriptionswithHighQualityDiscreteRepresentationJianrongZhang·YangsongZhang·XiaodongCun·YongZhang·HongweiZhao·HongtaoLu·XiSHEN·Y
🏆作者提出了一个单目相机的视频序列进行深度估计与运动估计,作者的方法是完全无监督的,端到端的学习,作者使用了单视角深度网络和多姿态网络,提出了一个图像(predict)与真实的下一帧(goundturth)计算loss,作为无监督的依据,实现无监督学习。使用KITTI数据集证明了他们的有效性:1.合成的深度图与监督学习的方法是可比的;2.在可比较的输入设置下,姿势估计与已建立的SLAM系统相比性能优越文章目录原理分析实施细节限制条件会议/期刊:CVPR2017论文题目:《UnsupervisedLearningofDepthandEgo-MotionfromVideo》论文链接:Unsuper
点云3D目标检测-CenterPoint:Center-based3DObjectDetectionandTracking-基于中心的3D目标检测与跟踪(CVPR2021)摘要1.导言2.相关工作3.准备工作4.CenterPoint4.1两阶段CenterPoint4.2体系结构5.实验5.1主要结果5.2消融研究6.结论ReferencesA.跟踪算法B.实施详细信息C.nuScene跨类性能D.nuScenes检测挑战声明:此翻译仅为个人学习记录文章信息标题:Center-based3DObjectDetectionandTracking(CVPR2021)作者:TianweiYin,X
文章目录摘要算法3.1.Preliminaryof3DFaceModel3D3.2.MotionCoefficientsGenerationthroughAudioExpNetPoseVAE3.3.3D-awareFaceRender实验SOTA实验消融实验ExpNetPoseVAEFaceRender限制结论论文:《SadTalker:LearningRealistic3DMotionCoefficientsforStylizedAudio-DrivenSingleImageTalkingFaceAnimation》github:https://github.com/Winfredy/Sad
参考链接:[CVPR2022]基于图像解耦生成的无嵌入隐写-知乎这篇论文介绍的很好信息隐藏|ImageDisentanglementAutoencoderforSteganographywithoutEmbedding实现无嵌入隐写的图像无纠缠自动隐写器代码:https://github.com/Lemok00/IDEAS无嵌入隐写(steganographywithoutembedding,SWE)隐藏秘密信息的过程不会直接修改载体图像,因此具有免疫传统隐写分析器攻击的独特优势。现有无嵌入隐写可以分为两类:基于映射的SWE通过设计映射机制,将秘密信息转换为从现有图像集中选取的图像哈希序列,其
源码 https://github.com/QitaoZhao/PoseFormerV2摘要最近,基于变换的方法在连续的2D到3D提升人体姿态估计中取得了显着的成功。作为一项开创性的工作,PoseFormer捕获了每个视频帧中人体关节的空间关系以及级联Transformer层跨帧的人体动态,并取得了令人印象深刻的性能。然而,在真实的场景中,PoseFormer及其后续产品的性能受到两个因素的限制:(a)输入关节序列的长度;(B)二维联合检测的质量。现有方法通常对输入序列的所有帧施加自关注,当为了获得更高的估计精度而增加帧数目时会造成巨大的计算负担,并且它们对2D联合检测器有限的能力所带来的噪声
虽然我从来没见过你,但是我有可能「认识」你——这是人们希望人工智能在「一眼初见」下达到的状态。为了达到这个目的,在传统的图像识别任务中,人们在带有不同类别标签的大量图像样本上训练算法模型,让模型获得对这些图像的识别能力。而在零样本学习(ZSL)任务中,人们希望模型能够举一反三,识别在训练阶段没有见过图像样本的类别。生成式零样本学习(GZSL)是实现零样本学习的一种有效方法。在生成式零样本学习中,首先需要训练一个生成器来合成未见类的视觉特征,这个生成过程是以前面提到的属性标签等语义描述为条件驱动的。有了生成的视觉特征作为样本,就可以像训练传统的分类器一样,训练出可以识别未见类的分类模型。生成器的
一、概览论文:FaceChain-ImagineID:FreelyCraftingHigh-FidelityDiverseTalkingFacesfromDisentangledAudio,https://arxiv.org/abs/2403.01901 本文提出了一个新的说话人脸生成任务,即直接从音频中想象出符合音频特征的多样化动态说话人脸,而常规的该任务需要给定一张参考人脸。具体来说,该任务涉及到两个核心的挑战,首先如何从音频中解耦出说话人的身份(性别、年龄等语义信息以及脸型等结构信息)、说话内容以及说话人传递的情绪,其次是如何根据这些信息生成多样化的符合条件的视频,同时保持
Projectpage:https://github.com/haoyuc/MaskedDenoising前提:在捕获和存储图像时,设备不可避免地会引入噪声。减少这种噪声是一项关键任务,称为图像去噪。深度学习已经成为图像去噪的事实方法,尤其是随着基于Transformer的模型的出现,这些模型在各种图像任务上都取得了显著的最新成果。核心问题:基于深度学习的方法去噪缺乏泛化能力。如何提高深度学习去噪泛化能力,使适应更广泛的场景。方法:提出一种新的方法来提高去噪网络的泛化性能,称为掩码训练。其包括在训练期间掩蔽输入图像的随机像素并重建丢失的信息,屏蔽了自我注意层中的特征,以避免训练-测试不一致性的
MaskGIT:MaskedGenerativeImageTransformer公和众和号:EDPJ(进Q交流群:922230617或加VX:CV_EDPJ进V交流群)目录0.摘要3.方法3.1训练中的掩蔽视觉标记建模(MaskedVisualTokenModeling,MVTM)3.2迭代解码3.3掩蔽设计4.实验0.摘要生成式Transformer 在计算机视觉社区中经历了迅速的流行增长,用于合成高保真度和高分辨率的图像。然而,迄今为止最好的生成式Transformer 模型仍然将图像简单地视为一系列标记,并按照光栅扫描顺序(即逐行)顺序解码图像。我们发现这种策略既不是最优的,也不是高效的