jjzjj

VisionLLAMA

全部标签

全面超越ViT,美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来,Meta开源的LLaMA架构在LLM中经受了考验并大获成功(训练稳定、容易做scaling)。沿袭ViT的研究思路,我们能否借助创新性的LLaMA架构,真正实现语言和图像的架构统一?在这一命题上,最近的一项研究VisionLLaMA取得了进展。VisionLLaMA在图像生成(包含Sora依赖的底层的DIT)和理解(分类、分割、检测、自监督)等多个主流任务上相较于原ViT类方法提升显著。论文标题:VisionLLaMA:AUnifiedLLaMAInterfaceforVisionTasks论文地址:https://arxiv.org/abs/2403.00522代码地址:https