威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

新智元 2024-02-12 原文

视觉指令微调火了。

这篇论文名为Visual Instruction Tuning，由威斯康星大学麦迪逊分校，微软研究院和哥伦比亚大学共同出品。

作者包括Haotian Liu，Chunyuan Li，Qingyang Wu和Yong Jae Lee。

同时，研究人员也在GitHub上开源了他们的代码、模型和数据集。论文也发布在了Arxiv上。

讲解

那么LLaVA的功能究竟是什么呢？如果一头扎进论文，不熟悉的朋友可能会有些陌生。

我们先看看LLaVA自己怎么说。

以上回答生成自LLaVA的Chatbot，我输入的问题是，LLaVA的功能是什么，用户该如何利用它？

回答如下：

LLaVA是一个大语言和视觉助手，在UW Madison WAIV实验室经受的训练。LLaVA被设计出来的目的，就是帮助用户处理各类任务，方法则是借助自然语言理解的能力和视觉内容分析的能力。

LLaVA的主要功能包括：

· 以文本为基础的任务：LLaVA可以处理并分析文本，允许用户问问题，LLaVA可以和用户交谈，或者完成用户输入的任务，比如说提炼文件概要，情感分析，实体识别等等。

· 以图像为基础的任务：LLaVA可以分析图像，描述图像，进行物体识别，分析理解场景。

用户如果想更好地应用LLaVA，可以直接和LLaVA进行交谈，就像和人类之间对话一样。尽可能多的提供细节，LLaVA就会生成出一个更完善的答案。

同时应该记住，说到底LLaVA是一个机器学习模型，是一个AI工具。只要是工具，就有其限制。LLaVA不一定每一次都能完美地回答用户输入的问题。

当然，LLaVA也在不断学习和完善，其功能也会越来越强大。

总的来说，从LLaVA的回答中可以看出，在Chatbot这方面，和GPT的功能差不了太多。但是LLaVA可以处理一些有关图像的任务。

表现出彩

研究人员在Arxiv的论文中详细介绍了LLaVA的技术细节。

要知道使用机器生成的指令跟随数据对大型语言模型（LLMs）进行指令微调，提高了新任务的零点能力，但这个想法在多模态领域的探索较少。

在论文中，研究人员首次尝试使用仅有语言的GPT-4来生成多模态语言图像的指令跟随数据。

通过对这种生成的数据进行指令调整，研究人员引入了LLaVA：这是一个大型语言和视觉助手，是一个端到端的训练有素的大型多模态模型，它连接了一个视觉编码器和LLM，用于通用的视觉和语言理解。

早期实验表明，LLaVA展示了令人印象深刻的多模态聊天能力，有时在未见过的图像/指令上都能输出多模态GPT-4的表现，在合成的多模态指令跟随数据集上与GPT-4相比，获得了85.1%的相对分数。

当对Science杂志进行微调时，LLaVA和GPT-4的协同作用达到了92.53%的新的最先进的准确性。

研究人员公开了GPT-4生成的视觉指令调整的数据、模型和代码库。

多模态模型

首先厘清定义。

大型多模态模型指的就是一种基于机器学习技术的模型，能够处理和分析多种输入类型，如文本和图像。

这些模型设计用于处理更广泛的任务，并且能够理解不同形式的数据。通过将文本和图像作为输入，这些模型可以提高理解和编解释的能力，从而生成更准确和相关的回答。

人类通过视觉和语言等多种渠道与世界互动，因为每个单独的渠道在代表和传达某些世界概念方面都有独特的优势，从而有利于更好地理解世界。

而人工智能的核心愿望之一是开发一个通用的助手，能够有效地遵循多模态的视觉和语言指令，与人类的意图一致，完成各种真实世界的任务。

因此，开发者社区见证了对开发语言增强的基础视觉模型的新兴趣，在开放世界的视觉理解方面具有强大的能力，如分类、检测、分割、描述，以及视觉生成和编辑。

在这些功能中，每个任务都由一个单一的大型视觉模型独立解决，在模型设计中隐含考虑了任务指令。

此外，语言只被用来描述图像内容。虽然这允许语言在将视觉信号映射到语言语义方面发挥重要作用——这是人类交流的常见渠道。但这会导致模型通常具有固定的界面，互动性和对用户指令的适应性有限。

而大型语言模型（LLM）表明，语言可以发挥更广泛的作用：通用助手的通用界面，各种任务指令可以明确地用语言表示，并引导端到端训练有素的神经助手切换到感兴趣的任务来解决它。

例如，最近ChatGPT和GPT-4的成功，证明了这种LLM在遵循人类指令方面的能力，并激发了人们对开发开源LLM的巨大兴趣。

LLaMA就是一个开源的LLM，其性能与GPT-3相当。正在进行的工作利用各种机器生成的高质量指令跟随样本来提高LLM的对齐能力，与专有LLM相比，报告了令人印象深刻的性能。重要的是，这一行的工作是纯文本的。

在本文中，研究人员提出了视觉指令调整，这是将指令调整扩展到多模态空间的首次尝试，它为建立一个通用的视觉助手铺平了道路。具体来说，论文的主要内容包括：

多模态的指令跟随数据。一个关键的挑战是缺乏视觉语言指令-跟随数据。我们提出了一个数据改革的观点和管道，使用ChatGPT/GPT-4将图像-文本对转换为适当的指令-跟随格式。

大型多模态模型。研究人员开发了一个大型多模态模型（LMM），通过连接CLIP的开放集视觉编码器和语言解码器LaMA，并在生成的教学视觉——语言数据上对它们进行端到端的微调。实证研究验证了使用生成的数据进行LMM指令调谐的有效性，并为建立一个通用的指令跟随的视觉代理提出了实用的建议。通过GPT 4，研究小组在Science QA多模态推理数据集上取得了最先进的性能。

开源。研究小组向公众发开了以下内容：生成的多模态指令数据、用于数据生成和模型训练的代码库、模型检查点，以及一个视觉聊天演示。

成果展示

可以看到，LLaVA能处理各类问题，且生成的回答既全面又富有逻辑。

LLaVA表现出一些接近GPT-4水平的多模态能力，在视觉聊天方面，GPT-4相对评分85%。

而在推理问答方面，LLaVA甚至达到了新SoTA——92.53%，击败多模态思维链。

多模平直 style span text-align 人工智能新闻微软模型

有关威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4的更多相关文章

ruby-on-rails - Rabl 多模合集 - 2
我正在使用RABL输出Sunspot/SOLR结果集，搜索结果对象由多种模型类型组成。目前在rablView中我有:objectfalsechild@search.results=>:resultsdoattribute:id,:resource,:upccodeattribute:display_description=>:descriptioncode:start_datedo|r|r.utc_start_date.to_iendcode:end_datedo|r|r.utc_end_date.to_iendendchild@search=>:statsdoattribute:to
ruby-on-rails - 如何使用连接表制作多模型 tag_cloud？ - 2
我有一个连接表create_table"combine_tags",force:truedo|t|t.integer"user_id"t.integer"habit_id"t.integer"valuation_id"t.integer"goal_id"t.integer"quantified_id"end其目的是让tag_cloud为多个模型工作。我把它放在application_controllerdeftag_cloud@tags=CombineTag.tag_counts_on(:tags)end我的tag_cloud看起来像这样:css_class%>#orthisdepen
评测：对接GPT-4的NewBing使用体验变化 - 2
GPT-4是OpenAI发布的最新一代语言模型，于2023年3月14日正式发布，并通过API和ChatGPTPlus平台向用户开放。微软也证实，在GPT-4正式发布之前，就已经在部分版本的Bing中使用GPT-4技术。本文旨在对使用GPT-4技术的NewBing进行中立、专业的使用评测，探讨其使用体验的变化。界面与限额早于2月26日小编获得Newbing试用资格，届时Newbing初体验并不理想，限制多，例如对话只能持续5条自动终止，对话字符受限，生成效果不尽如人意。然而今日对接GPT-4全新bing额度扩充至15条，且对话字数扩容至2000字。Newbing提供了三种模式选项，即创造力、平衡
生成式人工智能（AIGC）综述：ChatGPT从GPT-4到GPT-5可以一统AIGC？ - 2
原文题目：《ACompleteSurveyonGenerativeAI(AIGC):IsChatGPTfromGPT-4toGPT-5AllYouNeed?》文章链接：https://arxiv.org/abs/2303.11717https://arxiv.org/abs/2303.11717引言：随着ChatGPT的火热传播，生成式AI（AIGC，即AI生成的内容）因其分析和创造文本、图像等能力而在各地引起了轰动。在如此强烈的媒体关注下，我们几乎不可能错过从某个角度欣赏AIGC的机会。 “一个具有未来科幻感的机器人坐着，手握画笔正在创作一幅五颜六色的图画“由dalle2创作在AI从纯分析转
ruby - Capybara 麻烦填写 JS 模态 - 2
首先让我确认这不是重复的(因为那里发布的答案没有解决我的问题)。Thispost本质上是我的确切问题:Capybara无法在Stripe模式中找到表单字段来填写它们。这是我的capybara规范:describe'checkout',type::feature,js:truedoit'checksoutcorrectly'dovisit'/'page.shouldhave_content'Amount:$20.00'page.find('#button-two').click_button'PaywithCard'Capybara.within_frame'stripe_checkou
javascript - 与用户操作交互的模态弹出窗口，如用户设置的最大化、最小化、关闭、调整大小和可拖动 - 2
我需要与用户操作交互的模态弹出窗口，如下图所示。但是这个模态弹出窗口应该是纯java脚本。严禁使用JQuery或JQuery插件。期待您的来信。提前致谢。最佳答案这里我分享一些插件，基本上都是用Jquery和Javascript创建的。无论您在纯JavaScript中寻找什么，都可以使用http://alpha.jspanel.de/media/demos/nojquery/index.php另一个是使用Jquery创建的。是https://lobianijs.com/site/lobipanel#examples使用第一个选项
javascript - 单击时使用纯 JavaScript 隐藏 Bootstrap 模态 - 2
我正在研究BootstrapPopUpModals。我有2个按钮，分别名为Button1和Button2。&我有2个模态框，分别名为Modal1和Modal2。Note:Button2isinsidetheModal1&Button1isontheWebPage.如果我点击Button1，Modal1应该是打开的&如果我点击Button2是在Modal里面，那么Modal1应该会自动隐藏并且应该显示Modal2。我正在使用jQueryYet做这件事并且它工作正常。$('#button1').click(function(){$('#modal1').modal('hide');$('#
javascript - 我怎样才能在 twitter bootstrap 中只显示一次模态？ - 2
这是我的代码:$(document).ready(function(){if($.cookie('msg')==0){$('#myModal').modal('show');$.cookie('msg',1);}});在页面加载时模型显示，但当我刷新时它一直显示它应该只显示一次。$.cookie来自https://github.com/carhartl/jquery-cookie更新:这有效:“隐藏”由于某种原因无效$(document).ready(function(){if($.cookie('msg')==null){$('#myModal').modal('show');$.c
javascript - 如何获取模态框jquery UI的输入值 - 2
{%csrf_token%}如何从以下位置获取EMAIL值:到:从这里开始:functionshowDialog(){$("#dialog-modal").dialog({});} 最佳答案使用对话框打开时调用的对话框打开事件...所以替换那里的值..$("#dialog-modal").dialog({open:function(event,ui){varboxInput=$("#befor-box").find('input[name="email"]').val();//getthevalue..$("#dialog-mod
javascript - Meteor 的 Iron Router 不关闭模态对话框 - 2
我正在使用Meteor和IronRouter，并且我有一个模态对话框，当它被关闭时不会隐藏背景。更准确地说，我希望在单击关闭按钮后，ironrouter将重定向到另一个页面。重定向代码确实有效，但背景仍然可见。如果我删除路由线-模式将被关闭，背景也将被关闭。这是模态框的标记:×Areyousure?Thiscannotbeundone.YesNo这是切换模态对话框的按钮:Delete这是确认模式对话框的"is"按钮上的点击事件:'click#confirm-yes-button':function(){Recipes.remove(this._id);$('#confirm

威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4

讲解

表现出彩

多模态模型

成果展示

有关威大哥大等联合发文！最新多模态大模型LLaVA问世，水平直逼GPT-4的更多相关文章

随机推荐