Compositional

Human Pose as Compositional Tokens 阅读笔记

人体姿态作为合成token——CVPR2023论文链接代码链接摘要：人体姿态常由身体关节的坐标向量或其热图embedding表示。虽然数据易于处理，但由于身体关节间缺乏依赖建模，即使是不现实的姿态也被接受。本文提出了一种结构化表示：PoseasCompositionalTokens（PCT），以探索关节依赖性，PCT由M个离散的token表示一个姿态，每个token都表征一个具有几个相互依赖关节的子结构（见图1）。这种合成设计能以低成本实现微小的重建误差，然后将姿态估计视作一项分类任务。具体而言，学习一个分类器来预测图像中M个token的类别。一个预训练的decoder网络在无需后处理的情况下

Compositional 笔记 span class xff0c 人工智能深度学习

【论文阅读】VideoComposer: Compositional Video Synthesis with Motion Controllability

VideoComposer：具有运动可控性的合成视频。paper：[2306.02018]VideoComposer:CompositionalVideoSynthesiswithMotionControllability(arxiv.org)由阿里巴巴研发的可控视频生成框架，可以灵活地使用文本条件、空间条件和时序条件来生成视频，比如使用草图、深度图或运动向量等多个组合条件合成目标视频，极大地提高了视频灵活性和可控性。在多模态条件下进行视频生成。引入了一个时空条件编码器，允许各种条件的灵活组合。使得可以整合多个模态，如草图、遮罩、深度和运动矢量。通过利用多模态控制，可以生成更高质量的视频，更好

Controllability VideoComposer 条件模态 xff0c 论文阅读

论文阅读：《Multimodal Graph Networks for Compositional Generalization in Visual Question Answering》

标题：视觉问答中关于组合泛化的多模态图神经网络来源：NeurlPS2020https://proceedings.neurips.cc/paper/2020/hash/1fd6c4e41e2c6a6b092eb13ee72bce95-Abstract.html代码：https://github.com/raeidsaqur/mgn一、问题提出重点：组合泛化问题例子：自然语言为例，比如人们能够学习新单词的含义，然后将其应用到其他语言环境中。一个人如果学会了一个新动词'dax'的意思，就能立即类推到'singanddax'的意思。”类似地，在训练的时候，可能在测试集中出现了训练集中没有出现过的元素

Generalization Compositional span 2803233 inline 人工智能

论文阅读：《Multimodal Graph Networks for Compositional Generalization in Visual Question Answering》

标题：视觉问答中关于组合泛化的多模态图神经网络来源：NeurlPS2020https://proceedings.neurips.cc/paper/2020/hash/1fd6c4e41e2c6a6b092eb13ee72bce95-Abstract.html代码：https://github.com/raeidsaqur/mgn一、问题提出重点：组合泛化问题例子：自然语言为例，比如人们能够学习新单词的含义，然后将其应用到其他语言环境中。一个人如果学会了一个新动词'dax'的意思，就能立即类推到'singanddax'的意思。”类似地，在训练的时候，可能在测试集中出现了训练集中没有出现过的元素

Generalization Compositional span 2803233 inline 人工智能