今天来聊聊编码(Encoding),加密(Encryption)和令牌化(Tokenization)的区别。编码、加密和标记化是三种不同的流程,它们以不同的方式处理数据,用于不同的目的,包括数据传输、安全性和合规性。在系统设计中,我们需要选择正确的方法来处理敏感信息。编码编码使用一种易于逆转的方案将数据转换成不同的格式。例如,Base64编码可将二进制数据编码为ASCII字符,从而使数据更容易在专为处理文本数据而设计的媒体上传输。编码并不是为了确保数据安全。编码后的数据可以使用相同的方案轻松解码,无需密钥。加密加密涉及使用密钥转换数据的复杂算法。加密可以是对称加密(使用相同的密钥进行加密和解密
在2022年11月OpenAI的ChatGPT发布之后,大型语言模型(llm)变得非常受欢迎。从那时起,这些语言模型的使用得到了爆炸式的发展,这在一定程度上得益于HuggingFace的Transformer库和PyTorch等库。计算机要处理语言,首先需要将文本转换成数字形式。这个过程由一个称为标记化Tokenization。标记化分为2个过程:1、将输入文本划分为token标记器首先获取文本并将其分成更小的部分,可以是单词、单词的部分或单个字符。这些较小的文本片段被称为标记。StanfordNLPGroup[2]将标记更严格地定义为:在某些特定的文档中,作为一个有用的语义处理单元组合在一起
代码地址:https://github.com/taishan1994/sentencepiece_chinese_bpePart1前言目前,大语言模型呈爆发式的增长,其中,基于llama家族的模型占据了半壁江山。而原始的llama模型对中文的支持不太友好,接下来本文将讲解如何去扩充vocab里面的词以对中文进行token化。Part2数据预处理对斗破苍穹语料进行预处理,每一行为一句或多句话。with open("data/《斗破苍穹》.txt", "r", encoding="utf-8") as fp: data = fp.read().strip().split("\n")sent
JWT讲解与token过期自动续期解决方案1.什么是token2.什么是JWT3.token过期自动续费方案3.1token过期3.2解决方案1.什么是tokenToken是服务端生成的一串字符串,以作客户端进行请求的一个令牌,当第一次登录后,服务器生成一个Token便将此Token返回给客户端,以后客户端只需带上这个Token前来请求数据即可,无需再次带上用户名和密码。token其实说的更通俗点可以叫暗号,在一些数据传输之前,要先进行暗号的核对,不同的暗号被授权不同的数据操作。使用token的好处:基于Token的身份验证是无状态的,我们不将用户信息存在服务器或Session中。2.什么是J
JWT讲解与token过期自动续期解决方案1.什么是token2.什么是JWT3.token过期自动续费方案3.1token过期3.2解决方案1.什么是tokenToken是服务端生成的一串字符串,以作客户端进行请求的一个令牌,当第一次登录后,服务器生成一个Token便将此Token返回给客户端,以后客户端只需带上这个Token前来请求数据即可,无需再次带上用户名和密码。token其实说的更通俗点可以叫暗号,在一些数据传输之前,要先进行暗号的核对,不同的暗号被授权不同的数据操作。使用token的好处:基于Token的身份验证是无状态的,我们不将用户信息存在服务器或Session中。2.什么是J