ChatLLaMA

本文为《类ChatGPT逐行代码解读》系列的第二篇，上一篇是：从零实现Transformer、ChatGLM-6B：从位置编码/缩放点积注意力/多头注意力开始本文模型的特点是都加了RLHF，对于本文的这4个模型而言：TRL、ChatLLaMA、ColossalChat、DeepSpeedChat如果只关注两个则可以更多关注下ColossalChat、DeepSpeedChat，原因在于ColossalChat给的图示特别好，而DeepSpeedChat的实现很清晰如果有读者说就只想看一个，则推荐DeepSpeedChat，特别是本文最后会给你一个完整而通透的“PPO算法/RLHF”的代码实现全