jjzjj

更适合中文LMM体质的基准CMMMU来了:超过30个细分学科,12K专家级题目

近期,随着多模态大模型(LMM)的能力不断进步,评估LMM性能的需求也日益增长。与此同时,在中文环境下评估LMM的高级知识和推理能力的重要性更加突出。在这一背景下,M-A-P开源社区、港科大、滑铁卢大学、零一万物等联合推出了面向中文大规模多学科多模态理解和推理基准CMMMU(ChineseMassiveMulti-disciplineMultimodalUnderstandingandReasoning),用于评估基本模型在中文各种任务中的专家级多模式理解能力。CMMMU涵盖6个大类学科,包括艺术、商业、健康和医学、科学、人文与社会科学、技术与工程,跨越30多个细分领域学科。下图给出了每个细分

【LMM 007】Video-LLaVA:通过投影前对齐以学习联合视觉表征的视频多模态大模型

论文标题:Video-LLaVA:LearningUnitedVisualRepresentationbyAlignmentBeforeProjection论文作者:BinLin,YangYe,BinZhu,JiaxiCui,MunanNing,PengJin,LiYuan作者单位:PekingUniversity,PengChengLaboratory,SunYat-senUniversity,TencentDataPlatform,AIforScience(AI4S)-PreferredProgram,PekingUniversity,FarReelAiLab论文原文:https://ar

【LMM 016】3D-LLM:将 3D 点云特征注入 LLM

论文标题:3D-LLM:Injectingthe3DWorldintoLargeLanguageModels论文作者:YiningHong,HaoyuZhen,PeihaoChen,ShuhongZheng,YilunDu,ZhenfangChen,ChuangGan作者单位:UniversityofCalifornia,LosAngeles,ShanghaiJiaoTongUniversity,SouthChinaUniversityofTechnology,UniversityofIllinoisUrbana-Champaign,MassachusettsInstituteofTechno

多模态 GPT-V 出世!36 种场景分析 ChatGPT Vision 能力,LMM 将全面替代大语言模型?

LMM将会全面替代大语言模型?人工智能新里程碑GPT-V美国预先公测,医疗领域/OCR实践+166页GPT-V试用报告首发解读ChatGPTVision,亦被广泛称为GPT-V或GPT-4V,代表了人工智能技术的新里程碑。作为LMM(LargeMultimodalModel)的代表,它不仅继承了LLM(LargeLanguageModel)的文本处理能力,还加入了图像处理的功能,实现了文本与图像的多模态交互。与传统的LLM相比,GPT-V更加强大和灵活,能够更深入地理解和生成与图像相关的内容。这种进化打开了无数新的应用可能性,从图像描述、创意设计到复杂的图文结合任务,GPT-4V都展现出了卓越