人体姿态作为合成token——CVPR2023论文链接代码链接摘要:人体姿态常由身体关节的坐标向量或其热图embedding表示。虽然数据易于处理,但由于身体关节间缺乏依赖建模,即使是不现实的姿态也被接受。本文提出了一种结构化表示:PoseasCompositionalTokens(PCT),以探索关节依赖性,PCT由M个离散的token表示一个姿态,每个token都表征一个具有几个相互依赖关节的子结构(见图1)。这种合成设计能以低成本实现微小的重建误差,然后将姿态估计视作一项分类任务。具体而言,学习一个分类器来预测图像中M个token的类别。一个预训练的decoder网络在无需后处理的情况下
VideoComposer:具有运动可控性的合成视频。paper:[2306.02018]VideoComposer:CompositionalVideoSynthesiswithMotionControllability(arxiv.org)由阿里巴巴研发的可控视频生成框架,可以灵活地使用文本条件、空间条件和时序条件来生成视频,比如使用草图、深度图或运动向量等多个组合条件合成目标视频,极大地提高了视频灵活性和可控性。在多模态条件下进行视频生成。引入了一个时空条件编码器,允许各种条件的灵活组合。使得可以整合多个模态,如草图、遮罩、深度和运动矢量。通过利用多模态控制,可以生成更高质量的视频,更好
标题:视觉问答中关于组合泛化的多模态图神经网络来源:NeurlPS2020https://proceedings.neurips.cc/paper/2020/hash/1fd6c4e41e2c6a6b092eb13ee72bce95-Abstract.html代码:https://github.com/raeidsaqur/mgn一、问题提出重点:组合泛化问题例子:自然语言为例,比如人们能够学习新单词的含义,然后将其应用到其他语言环境中。一个人如果学会了一个新动词'dax'的意思,就能立即类推到'singanddax'的意思。”类似地,在训练的时候,可能在测试集中出现了训练集中没有出现过的元素
标题:视觉问答中关于组合泛化的多模态图神经网络来源:NeurlPS2020https://proceedings.neurips.cc/paper/2020/hash/1fd6c4e41e2c6a6b092eb13ee72bce95-Abstract.html代码:https://github.com/raeidsaqur/mgn一、问题提出重点:组合泛化问题例子:自然语言为例,比如人们能够学习新单词的含义,然后将其应用到其他语言环境中。一个人如果学会了一个新动词'dax'的意思,就能立即类推到'singanddax'的意思。”类似地,在训练的时候,可能在测试集中出现了训练集中没有出现过的元素