jjzjj

NLP / LLMs中的Temperature 是什么?

ChatGPT,GPT-3,GPT-3.5,GPT-4,LLaMA,Bard等大型语言模型的一个重要的超参数大型语言模型能够根据给定的上下文或提示生成新文本,由于神经网络等深度学习技术的进步,这些模型越来越受欢迎。可用于控制生成语言模型行为的关键参数之一是Temperature参数。在本文中,我们将讨论语言生成模型中Temperature参数的作用,以及它如何影响生成文本的质量。Temperature在模型中的作用Temperature是一个超参数,可用于控制生成语言模型中生成文本的随机性和创造性。它用于调整模型的softmax输出层中预测词的概率。温度参数定义为在应用softmax函数之前用

论文阅读-Pruning for Protection: Increasing Jailbreak Resistance in Aligned LLMs Without Fine-Tuning

研究背景:大型语言模型(LLMs)在生成有害和非法内容方面存在脆弱性,这类攻击被称为“越狱”(jailbreaking)提示。越狱攻击通过精心设计的提示,诱使模型绕过安全对齐机制,生成有害内容。随着LLMs的普及和用户对这些模型的安全性要求提高,研究如何提高LLMs对越狱攻击的抵抗力变得尤为重要。过去方案和缺点:以往的研究主要集中在通过人类反馈的强化学习(RLHF)等方法对LLMs进行微调,以提高其安全性。然而,这些方法通常需要额外的训练,并且在模型压缩(如剪枝)方面对安全性的影响尚不明确。此外,模型压缩可能会影响模型的泛化能力和鲁棒性,但具体效果因压缩方法和实施细节而异。本文方案和步骤:本文

LLMs之Claude3:Claude 3的简介、安装和使用方法、案例应用之详细攻略

LLMs之Claude3:Claude3的简介、安装和使用方法、案例应用之详细攻略导读:本文介绍了Anthropic于2024年3月4日推出的新一代更强大的AI助手Claude3系列模型。背景痛点:>>当前人工智能模型在复杂任务、响应速度、准确性、上下文记忆等方面存在不足;>>企业对于可靠性更高、更智能、更高性能的AI模型有迫切需求;>>早前版本Claude模型在某些任务上的智能能力和响应速度还有待提升。解决方案:>>Anthropic推出了Claude3系列三个级别的模型:Haiku、Sonnet和Opus,从低到高依次提升智能能力。Claude3Opus顶级付费版,据称在逻辑推理能力上强于

LLMs之Llama2 70B:使用 PyTorch FSDP 微调 Llama 2 70B实现全部过程讲解之详细攻略

LLMs之Llama270B:使用PyTorchFSDP微调Llama270B实现全部过程讲解之详细攻略目录使用PyTorchFSDP微调Llama270B引言FSDP工作流使用的硬件微调LLaMa270B面临的挑战解决上述挑战,微调出一个70B的模型准备工作微调应对挑战1应对挑战2应对挑战3注意力机制的性能瓶颈算子融合综合运用所有手段训练损失曲线总结使用PyTorchFSDP微调Llama270B地址文章地址:https://huggingface.co/blog/ram-efficient-pytorch-fsdp时间2023年9月13日作者SourabMangrulkarSylvainG

LLMs之Gemma:Gemma(Google开发的新一代领先的开源模型)的简介、安装、使用方法之详细攻略

LLMs之Gemma:Gemma(Google开发的新一代领先的开源模型)的简介、安装、使用方法之详细攻略导读:此文章介绍了Google推出的新一代开源模型Gemma,旨在帮助研发人员负责任地开发AI。背景:>>Google长期致力于为开发者和研究人员提供各种开放模型,如Transformers、TensorFlow、BERT、T5等,以推动AI的负责任开发。核心要点:>>Gemma是基于同样技术与架构研发的Gemini模型开发出来的轻量级开放模型家族,它是一系列体积较小但性能领先的开源模型。>>Gemma有2B和7B两种规模,均搭载了预训练和指令调优版本,可以直接在笔记本电脑上运行。与其它同

在本地运行 LLMs 的 6 种方法

商业人工智能和大型语言模型(LLM)有一个很大的缺点:隐私。在处理敏感数据或专有数据时,我们无法从这些工具中获益。因此,我们需要了解如何在本地运行私人LLM。开源模型提供了一种解决方案,但它们也有自己的挑战和优势。 设定期望值开源软件种类繁多,有数以千计的模型可供选择,从Meta等大型组织提供的模型到个人爱好者开发的模型,各有不同。然而,运行这些模型也面临着一系列挑战: 它们可能需要强大的硬件,须拥有足够的内存和一个GPU尽管开源模型在不断改进,但它们的功能通常仍无法与ChatGPT等更完善的产品相提并论,因为ChatGPT得益于庞大的工程师团队的支持。并非所有模型都能用于商业用途。 不过,正

AI之MLM:《MM-LLMs: Recent Advances in MultiModal Large Language Models多模态大语言模型的最新进展》翻译与解读

AI之MLM:《MM-LLMs:RecentAdvancesinMultiModalLargeLanguageModels多模态大语言模型的最新进展》翻译与解读目录《MM-LLMs:RecentAdvancesinMultiModalLargeLanguageModels》翻译与解读Abstract摘要Figure1:ThetimelineofMM-LLMs1、Lntroduction引言痛点:传统的MM模型,从头开始训练时会产生大量的计算成本合理方法:采用基于现成的预训练的单模态基础模型的MM-LLMs=利用LLM作为认知动力+其它模态的基础模型提供的高质量的表示+多模态连接+协同推理实战流

LLMs之Cheshire-Cat :Cheshire-Cat (Stregatto)的简介(构建自定义人工智能的框架)、安装、使用方法之详细攻略

LLMs之Cheshire-Cat:Cheshire-Cat(Stregatto)的简介(构建自定义人工智能的框架)、安装、使用方法之详细攻略目录Cheshire-Cat(Stregatto)的简介1、文档和资源2、为什么使用CatCheshire-Cat(Stregatto)的安装和使用方法1、安装2、最小插件示例Cheshire-Cat(Stregatto)的案例应用Cheshire-Cat(Stregatto)的简介CheshireCat是一个用于构建自定义人工智能的框架,可在任何语言模型之上运行,生产就绪的人工智能助手框架。如果您曾使用过类似WordPress或Django的系统构建W

【译】关于推理、可解释性和 LLMs

原作: 邓肯·安德森引言:以下文章的主题我已经思考了很久,我希望能我的话能引起你的思考,并于一些更悲观的AI评论相均衡。推理和可解释性是充满细微差别的主题——我希望这篇文章能体现这一点。去年GPT-4发布时,我注意到出现了一个特殊的议论:“可解释的人工智能”。GPT-4是第一个在推理领域显示出真正进步的人工智能模型。对于我们中的一些人来说,这是令人兴奋的,但它也威胁到了一些依靠更传统的决策技术谋生的人。可解释性一直被认为是采用GPT-4等模型的障碍。在某些领域,例如医疗保健或金融服务,解释为什么做出特定决定尤其重要。因此,我们需要理解为什么人工智能会做出这些决定,因此需要可解释的人工智能。在回

LLMs之Vanna:Vanna(利用自然语言查询数据库的SQL工具+底层基于RAG)的简介、安装、使用方法之详细攻略

LLMs之Vanna:Vanna(利用自然语言查询数据库的SQL工具+底层基于RAG)的简介、安装、使用方法之详细攻略目录Vanna的简介1、用户界面2、RAGvs.Fine-Tuning3、为什么选择Vanna?4、扩展VannaVanna的安装和使用方法1、安装2、训练(1)、使用DDL语句训练(2)、使用文档训练(3)、使用SQL训练3、提问问题Vanna的应用案例1、基础用法Vanna的简介Vanna是一个基于MIT许可的开源PythonRAG(检索增强生成)框架,用于SQL生成和相关功能。Vanna的工作原理分为两个简单步骤:在您的数据上训练一个RAG“模型”,然后提问问题,这将返回