VisionLLAMA

半年多来，Meta开源的LLaMA架构在LLM中经受了考验并大获成功（训练稳定、容易做scaling）。沿袭ViT的研究思路，我们能否借助创新性的LLaMA架构，真正实现语言和图像的架构统一？在这一命题上，最近的一项研究VisionLLaMA取得了进展。VisionLLaMA在图像生成（包含Sora依赖的底层的DIT）和理解（分类、分割、检测、自监督）等多个主流任务上相较于原ViT类方法提升显著。论文标题：VisionLLaMA:AUnifiedLLaMAInterfaceforVisionTasks论文地址：https://arxiv.org/abs/2403.00522代码地址：https