llm_JJZJJ

一文搞懂使用 Arthur Bench 进行 LLM 评估

Hellofolks，我是Luga，今天我们来聊一下人工智能(AI)生态领域相关的技术-LLM评估。一、传统文本评估面临的挑战近年来，随着大型语言模型(LLM)的快速发展和改进，传统的文本评估方法在某些方面可能已经不再适用。在文本评估领域，我们可能已经听说过一些方法，例如基于“单词出现”的评估方法，比如BLEU，以及基于“预训练的自然语言处理模型”的评估方法，比如BERTScore。尽管这些方法在过去一直非常出色，但随着LLM的生态技术的不断发展，它们显得有点力不从心，无法完全满足当前的需求。随着LLM的快速发展和改进，我们正在面对新的挑战和机遇。LLM的能力和表现水平不断提高，这使得基于单词

一文评估模型 LLM 人工智能 AI

美国博士小哥打败女友的AI男友！7页论文让LLM降智，训出「负分男友」成功挽回

女友爱上AI了，怎么破？一位自称来自Cranberry-Lemon大学应用心理机器学习系的ChadBroman博士最近表示，自己已经和女友Tiffany分手8个月了。虽然很享受单身的自由，但身边没有女友的日子，连玩快艇都少了很多滋味。他一直想找机会和女友复合，然而女友那里却有了自己的完美替代品——Chad-GPT。这个AI男友更聪明、更体贴，轻易赢得了Tiffany的芳心，看起来小哥没戏了。但是，决心用魔法打败魔法的小哥，开发出一种策略，通过错误标记正向和负向男友行为数据，战胜了AI聊天机器人。他把自己的情敌训练成了一个不及时回消息、多疑善妒的坏男友，让Tiffany和「他」的关系破裂了！这位

小哥负分 span text-align style 人工智能新闻模型数据

陶哲轩看了都直呼内行！谷歌等用LLM自动证明定理拿顶会杰出论文，上下文越全证得越好

Transformer的技能树是越来越厉害了。来自马萨诸塞大学、谷歌和伊利诺伊大学厄巴纳-香槟分校（UIUC）的研究人员发表了一篇论文，利用大语言模型自动生成定理的完整证明。论文地址：https://arxiv.org/pdf/2303.04910.pdf这篇工作以Baldur（北欧神话中雷神Thor的兄弟）命名，首次证明了使用Transformer生成全证明是可能的，并且当为模型提供额外的上下文时，还可以改进模型先前的证明。文章发表于2023年12月在旧金山举行的ESEC/FSE（ACM欧洲软件工程联合会议和软件工程基础研讨会）上，并获得了杰出论文奖（DistinguishedPaperaw

越好上下文 span text-align style 人工智能新闻软件 AI

UCLA华人提出全新自我对弈机制！LLM自己训自己，效果碾压GPT-4专家指导

合成数据已经成为了大语言模型进化之路上最重要的一块基石了。在去年底，有网友扒出前OpenAI首席科学家Ilya曾经在很多场合表示过，LLM的发展不存在数据瓶颈，合成数据可以解决大部分的问题。图片英伟达高级科学家JimFan在看了最近的一批论文后也认为，使用合成数据，再加上传统用于游戏和图像生成的技术思路，可以让LLM完成大幅度的自我进化。图片而正式提出这个方法的论文，是由来自UCLA的华人团队。图片论文地址：https://arxiv.org/abs/2401.01335v1他们通过自我对弈机制（SPIN）生成合成数据，再通过自我微调的方法，不使用新的数据集，让性能较弱的LLM在OpenLLM

自己碾压 span text-align style 人工智能 UCLA LLM GPT-4

容器下在 Triton Server 中使用 TensorRT-LLM 进行推理

1.TensorRT-LLM编译模型1.1TensorRT-LLM简介使用TensorRT时，通常需要将模型转换为ONNX格式，再将ONNX转换为TensorRT格式，然后在TensorRT、TritonServer中进行推理。但这个转换过程并不简单，经常会遇到各种报错，需要对模型结构、平台算子有一定的掌握，具备转换和调试能力。而TensorRT-LLM的目标就是降低这一过程的复杂度，让大模型更容易跑在TensorRT 引擎上。需要注意的是，TensorRT针对的是具体硬件，不同的GPU型号需要编译不同的TensorRT格式模型。这与ONNX模型格式的通用性定位显著不同。同时，TensortR

TensorRT-LLM 容器 code data-id 模型开发前端 Triton 格式 TensorRT

使用CLIP和LLM构建多模态RAG系统

在本文中我们将探讨使用开源大型语言多模态模型(LargeLanguageMulti-Modal)构建检索增强生成(RAG)系统。本文的重点是在不依赖LangChain或LLlamaindex的情况下实现这一目标，这样可以避免更多的框架依赖。什么是RAG在人工智能领域，检索增强生成(retrieve-augmentedGeneration,RAG)作为一种变革性技术改进了大型语言模型(LargeLanguageModels)的能力。从本质上讲，RAG通过允许模型从外部源动态检索实时信息来增强AI响应的特异性。该体系结构将生成能力与动态检索过程无缝结合，使人工智能能够适应不同领域中不断变化的信息。

模态构建 61 xff0c xff0 机器学习深度学习人工智能 RAG 大语言模型 CLIP

开源 LLM 安全扫描器

Vigil是一款开源安全扫描程序，可检测即时注入、越狱以及对大型语言模型(LLM)的其他潜在威胁。当攻击者使用专门设计的输入成功影响LLM时，就会出现即时注入。这导致LLM无意中实现了攻击者设定的目标。我对LLM的可能性感到非常兴奋，但也注意到围绕它们构建的应用程序以及我们允许应用程序访问的数据需要更好的安全实践。这个项目给了我一个很好的机会在人工智能和网络安全的交叉点上构建一些东西。希望它能为其他安全研究人员和开发人员提供一个尝试现有的LLM输入和输出安全措施，甚至创建自己的安全措施的开始。Vigil的创建者AdamM.Swanda告诉我们，这比期望直接在生产中使用的任何东西都更有“可能”

扫描器开源 span color style 安全扫描模型工具

2023-12-30 AIGC-LangChain指南-打造LLM的垂域AI框架

摘要:2023-12-30AIGC-LangChain指南-打造LLM的垂域AI框架LangChain指南-打造LLM的垂域AI框架CHATGPT以来，Langchain可能是目前在AI领域中最热门的事物之一，仅次于向量数据库。它是一个框架，用于在大型语言模型上开发应用程序，例如GPT、LLama、HuggingFace模型等。它最初是一个Python包，但现在也有一个TypeScript版本，在功能上逐渐赶上，并且还有一个刚刚开始的Ruby版本。大家都知道在应用系统的业务中结合ChatGPT需要大量的prompt，想像一下：（1）如果我需要快速读一本书，想通过本书作为prompt，使用Cha

AIGC-LangChain LangChain xff xff0c xff0 AIGC 人工智能

MedicalGPT：基于LLaMA-13B的中英医疗问答模型（LoRA）、实现包括二次预训练、有监督微调、奖励建模、强化学习训练[LLM:含Ziya-LLaMA]。

项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）：汇总有意义的项目设计集合，助力新人快速实战掌握技能，助力用户更好利用CSDN平台，自主完成项目设计升级，提升自身的硬实力。专栏订阅：项目大全提升自身的硬实力[专栏详细介绍：项目设计集合（人工智能方向）：助力新人快速实战掌握技能、自主完成项目设计升级，提升自身的硬实力（不仅限NLP、知识图谱、计算机视觉等领域）MedicalGPT：基于LLaMA-13B的中英医疗问答模型（LoRA）、实现包括二次预训练、有监督微调、奖励建模、强化学习训练[LLM:含Ziya

训练 LLaMA xff xff0c xff0 人工智能自然语言处理智能问答大语言模型 LLM LoRA

【ChatGPT】Web LLM：你的本地的ChatGPT —— 完全在您的浏览器中运行 vicuna-7b 大型语言模型，它非常令人印象深刻

目录WebLLM—— 完全在您的浏览器中运行vicuna-7b大型语言模型，它非常令人印象深刻指示聊天演示链接免责声明InstructionsChatDemoLinksDisclaimer

中运 ChatGPT margin-left margin style 前端 chrome