MultiModal

Text to image论文精读MISE：多模态图像合成和编辑Multimodal Image Synthesis and Editing: A Survey

由于信息在现实世界中以各种形式存在，多模态信息之间的有效交互和融合对于计算机视觉和深度学习研究中多模态数据的创建和感知起着关键作用。近期OpenAI发布的DALLE-2和谷歌发布的Imagen等实现了令人惊叹的文字到图像的生成效果，引发了广泛关注并且衍生出了很多有趣的应用。而文字到图像的生成属于多模态图像合成与编辑领域的一个典型任务。多模态图像合成和编辑在建模多模态信息之间的交互方面具有强大的能力，近年来已成为一个热门的研究课题。本篇文章是阅读MultimodalImageSynthesisandEditing:ASurvey的精读笔记，论文发表于2021年12月，是一篇值得一读的综述。论文地

多模精读 xff0c xff xff0 计算机视觉深度学习 T2I 文本生成图像多模态

推荐一个最近刚出的比较全面的多模态综述：Multimodal Deep Learning

简介标题：MultimodalDeepLearning网址：https://arxiv.org/abs/2301.04856收录于：arxiv2023 与其说这是一篇论文，倒不如说这是一本“书”。全文共239页，这其中还不包括封面、目录、参考文献等等的篇幅。本书是一个研讨会的成果，在这个研讨会中，我们回顾了多模态方法，并试图创建一个坚实的领域概述，从深度学习的两个子领域的SOTA方法开始。此外，还讨论了将一种模态转换为另一种模态的建模框架，以及利用一种模态增强另一种模态的表示学习的模型。为了总结第二部分，介绍了同时处理这两种模态的体系结构。最后，我们还讨论了其他模态以及通用的多模态模型，

多模刚出 emspemsp xff0c h3 深度学习自然语言处理人工智能多模态 CV

Embracing Domain Differences in Fake News- Cross-domain Fake News Detection using Multimodal Data-AAAI21

一、摘要随着社交媒体的快速发展，假新闻已经成为一个重大的社会问题，它无法通过人工调查及时解决。这激发了大量关于自动假新闻检测的研究。大多数研究探索了基于新闻记录中不同模态信息（如文本、图像和传播网络）的有监督模型来识别假新闻。然而，如果新闻记录来自不同的领域（如政治、娱乐），特别是在训练时未见过的或很少见过的领域，这些方法的效果通常会下降。本文经过探索性数据分析发现，来自不同领域的新闻记录具有显著不同的单词使用模式和传播模式。此外，由于未加标签的新闻记录数量庞大，选择新闻记录进行人工加标签，从而使加标签数据集的域覆盖最大化具有挑战性。因此，本工作：提出了一种新的框架，在新闻记录中联合保存特定领

Fake News 领域的新闻人工智能

Embracing Domain Differences in Fake News- Cross-domain Fake News Detection using Multimodal Data-AAAI21

一、摘要随着社交媒体的快速发展，假新闻已经成为一个重大的社会问题，它无法通过人工调查及时解决。这激发了大量关于自动假新闻检测的研究。大多数研究探索了基于新闻记录中不同模态信息（如文本、图像和传播网络）的有监督模型来识别假新闻。然而，如果新闻记录来自不同的领域（如政治、娱乐），特别是在训练时未见过的或很少见过的领域，这些方法的效果通常会下降。本文经过探索性数据分析发现，来自不同领域的新闻记录具有显著不同的单词使用模式和传播模式。此外，由于未加标签的新闻记录数量庞大，选择新闻记录进行人工加标签，从而使加标签数据集的域覆盖最大化具有挑战性。因此，本工作：提出了一种新的框架，在新闻记录中联合保存特定领

Fake News 领域的新闻人工智能

论文阅读：《MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering》

标题：基于知识的视觉问答的多模态知识提取与积累来源：CVPR2022https://arxiv.org/abs/2203.09138代码：https://github.com/AndersonStra/MuKEA一、问题提出一般的基于知识的视觉问答（KB-VQA）要求具有关联外部知识的能力，以实现开放式跨模态场景理解。现有的研究主要集中在从结构化知识图中获取相关知识，如ConceptNet和DBpedia，或从非结构化/半结构化知识中获取相关知识，如Wikipedia和VisualGenome。虽然这些知识库通过大规模的人工标注提供了高质量的知识，但一个局限性是，它们从纯文本的知识库中获取相关

Knowledge Knowledge-based 多模 2803233 span 人工智能

论文阅读：《MuKEA: Multimodal Knowledge Extraction and Accumulation for Knowledge-based Visual Question Answering》

标题：基于知识的视觉问答的多模态知识提取与积累来源：CVPR2022https://arxiv.org/abs/2203.09138代码：https://github.com/AndersonStra/MuKEA一、问题提出一般的基于知识的视觉问答（KB-VQA）要求具有关联外部知识的能力，以实现开放式跨模态场景理解。现有的研究主要集中在从结构化知识图中获取相关知识，如ConceptNet和DBpedia，或从非结构化/半结构化知识中获取相关知识，如Wikipedia和VisualGenome。虽然这些知识库通过大规模的人工标注提供了高质量的知识，但一个局限性是，它们从纯文本的知识库中获取相关

Knowledge Knowledge-based 多模 2803233 span 人工智能

论文阅读：《Multimodal Graph Networks for Compositional Generalization in Visual Question Answering》

标题：视觉问答中关于组合泛化的多模态图神经网络来源：NeurlPS2020https://proceedings.neurips.cc/paper/2020/hash/1fd6c4e41e2c6a6b092eb13ee72bce95-Abstract.html代码：https://github.com/raeidsaqur/mgn一、问题提出重点：组合泛化问题例子：自然语言为例，比如人们能够学习新单词的含义，然后将其应用到其他语言环境中。一个人如果学会了一个新动词'dax'的意思，就能立即类推到'singanddax'的意思。”类似地，在训练的时候，可能在测试集中出现了训练集中没有出现过的元素

Generalization Compositional span 2803233 inline 人工智能

论文阅读：《Multimodal Graph Networks for Compositional Generalization in Visual Question Answering》

标题：视觉问答中关于组合泛化的多模态图神经网络来源：NeurlPS2020https://proceedings.neurips.cc/paper/2020/hash/1fd6c4e41e2c6a6b092eb13ee72bce95-Abstract.html代码：https://github.com/raeidsaqur/mgn一、问题提出重点：组合泛化问题例子：自然语言为例，比如人们能够学习新单词的含义，然后将其应用到其他语言环境中。一个人如果学会了一个新动词'dax'的意思，就能立即类推到'singanddax'的意思。”类似地，在训练的时候，可能在测试集中出现了训练集中没有出现过的元素

Generalization Compositional span 2803233 inline 人工智能