TensorRT-LLM

用深度催眠诱导LLM「越狱」，香港浸会大学初探可信大语言模型

尽管大语言模型LLM(LargeLanguageModel)在各种应用中取得了巨大成功，但它也容易受到一些Prompt的诱导，从而越过模型内置的安全防护提供一些危险/违法内容，即Jailbreak。深入理解这类Jailbreak的原理，加强相关研究，可反向促进人们对大模型安全性防护的重视，完善大模型的防御机制。不同于以往采用搜索优化或计算成本较高的推断方法来生成可Jailbreak的Prompt，本文受米尔格拉姆实验（Milgramexperiment）启发，从心理学视角提出了一种轻量级Jailbreak方法：DeepInception，通过深度催眠LLM使其成为越狱者，并令其自行规避内置的安

香港浸会大学浸会 span style text-align 人工智能新闻模型训练

开源大模型ChatGLM2-6B 2. 跟着LangChain参考文档搭建LLM+知识库问答系统

0.环境租用了1台GPU服务器，系统ubuntu20，TeslaV100-16GB（GPU服务器已经关机结束租赁了）SSH地址：*端口：17520SSH账户：root密码：Jaere7pa内网：3389，外网：17518VNC地址：*端口：17519VNC用户名：root密码：Jaere7pa硬件需求，ChatGLM-6B和ChatGLM2-6B相当。量化等级最低GPU显存FP16（无量化） 13GBINT8 10GBINT4 6GB1.基本环境1.1测试gpunvidia-smi(base)root@ubuntuserver:~#nvidia-smiTueSep1202:0

知识库开源 61 code 34 人工智能

大模型推理优化--TensorRT-LLM初体验

TensorRT-LLM初体验千呼万唤始出来，备受期待的Tensorrt-LLM终于发布，发布版本0.5.0。github:https://github.com/NVIDIA/TensorRT-LLM/tree/main1.介绍TensorRT-LLM可以视为TensorRT和FastTransformer的结合体，旨为大模型推理加速而生。1.1丰富的优化特性除了FastTransformer对Transformer做的attention优化、softmax优化、算子融合等方式之外，还引入了众多的大模型推理优化特性：Multi-headAttention(MHA)Multi-queryAtte

TensorRT-LLM 推理 span td class transformer 人工智能深度学习

深度学习模型部署综述（ONNX/NCNN/OpenVINO/TensorRT）

点击下方卡片，关注“自动驾驶之心”公众号ADAS巨卷干货，即可获取今天自动驾驶之心很荣幸邀请到逻辑牛分享深度学习部署的入门介绍，带大家盘一盘ONNX、NCNN、OpenVINO等框架的使用场景、框架特点及代码示例。如果您有相关工作需要分享，请在文末联系我们！>>点击进入→自动驾驶之心【模型部署】技术交流群后台回复【模型部署工程】获取基于TensorRT的分类、检测任务的部署源码！费尽心血训练好的深度学习模型如何给别人展示？只在服务器上运行demo怎么吸引别人的目光？怎么才能让自己的成果落地？这篇文章带你进入模型部署的大门。0前言模型部署的步骤：训练一个深度学习模型；使用不同的推理框架对模型进行

综述部署 xff xff0c xff0

如何赋予 GPT/LLM 自我意识1

引子这个周末OpenAI搞了一个大新闻，围绕SamAltman和IlyaSutskever的各种讨论遍地开花，而其中一个关注点就是他们对于AGI降临态度上的偏差。本文不打算讨论公司治理和办公室政治，而是用一些思维实验和大家都公认的现象来分析纯理论而言AGI会如何降临。一个基本的结论就是：如今的GPT模型注定会诞生AGI。更关心论证的朋友可以直接跳过前两个介绍基础知识的段落直接看后续的推理过程。不过限于篇幅，这篇里仅仅提出了问题，具体分析会在后续文章中给出。本文提出了意识和载体之间可能存在的辩证依赖关系，提出了一个识别自我意识的途径，可能是所有AI研究者长期等待的一个假说理论的雏形AGI的一般定

赋予意识理解知识一个 AI综合

解密Prompt系列19. LLM Agent之数据分析领域的应用：Data-Copilot & InsightPilot

在之前的LLMAgent+DB的章节我们已经谈论过如何使用大模型接入数据库并获取数据，这一章我们聊聊大模型代理在数据分析领域的应用。数据分析主要是指在获取数据之后的数据清洗，数据处理，数据建模，数据洞察和数据可视化的步骤。可以为经常和数据打交道，但是并不需要太过艰深的数据分析能力的同学提供日常工作的支持，已看到很多BI平台在尝试类似的方案。这里我们聊两篇论文：Data-Copilot和InsightPilot,主要参考一些有意思的思路~数据分析：Data-Copilotpaper:Data-Copilot:BridgingBillionsofDataandHumanswithAutonomou

数据分析 Data-Copilot 数据洞察生成大模型

如何快速落地LLM应用？通过Langchain接入千帆SDK

目录引言SDK的优势千帆SDK：快速落地LLM应用如何快速上手千帆SDK结语番外篇：开源社区引言号外，号外，百度智能云千帆大模型平台再次升级！在原有API基础上，百度智能云正式上线PythonSDK（下文均简称千帆SDK）版本并全面开源，企业和开发者可免费下载使用！千帆SDK全面覆盖从数据集管理，模型训练，模型评估，到服务部署等方面的功能，开发者可基于千帆SDK通过代码接入并调用百度智能云千帆大模型平台的能力，轻松实现LLMOps全流程的落地，快速构建自己的大语言模型应用。一、SDK的优势SDK当前主要的价值在于可快速使用API能力，并完善API使用的周边工具链，同时提供cookbook用于实

接入落地 text-align xff0c xff langchain

快速解决深度学习推理过程cuda或tensorRT推理速度变慢的办法【亲测有效】

文章目录前言一、场景再现场景一场景二二、原因分析三、解决办法总结前言各位朋友，好久不见，距离上一次更博已经过去三月有余。这段时间里博主基于LabVIEW探索开发了一些工具包，包括OpenVIN工具包、TensoRT工具包以及一键训练工具包，这几天会整理一下分享给大家，今天要和大家分享的是好多朋友私信问我的深度学习推理过程中cuda或tensorRT变慢的问题。一、场景再现场景一以yolov5为例，为了节省开销，深度学习模型导入后，相机实时抓图，条件触发推理检测，也就是只有满足某个条件，才进行推理检测。在该场景下，发现使用CUDA加速推理检测的速度竟然比使用CPU实时循环抓图检测的速度都要慢，如

推理深度 xff0c xff xff0 人工智能 YOLO scikit-learn 视觉检测深度学习

230页长文，涵盖5大科学领域，微软团队使用GPT-4探索LLM对科学发现的影响

前不久，微软DeepSpeed团队启动了一个名为 DeepSpeed4Science的新计划，旨在通过AI系统优化技术实现科学发现。11月13日，微软团队在arXiv预印平台发表题为《大型语言模型对科学发现的影响：使用GPT-4的初步研究》（「TheImpactofLargeLanguageModelsonScientificDiscovery:aPreliminaryStudyusingGPT-4」）的文章。文章篇幅长达230页。论文链接：https://arxiv.org/abs/2311.07361近年来，自然语言处理领域的突破性进展在强大的大型语言模型（LLM）的出现中达到了顶峰，这些

科学长文 span text-align style 人工智能新闻模型

解决LLaMA、BERT等部署难题：首个4-bit浮点量化LLM来了

大语言模型(LLM)压缩一直备受关注，后训练量化（Post-trainingQuantization) 是其中一种常用算法，但是现有PTQ方法大多数都是integer量化，且当比特数低于8时，量化后模型的准确率会下降非常多。想较于Integer(INT)量化，FloatingPoint(FP)量化能更好的表示长尾分布，因而越来越多的硬件平台开始支持FP量化。而这篇文章给出了大模型FP量化的解决方案。文章发表在EMNLP2023上。论文地址：https://arxiv.org/abs/2310.16836代码地址：https://github.com/nbasyl/LLM-FP4要了解本文，必须

浮点量化 style text-align 人工智能新闻模型

18 19 202122 23 24