本文为《类ChatGPT逐行代码解读》系列的第二篇,上一篇是:从零实现Transformer、ChatGLM-6B:从位置编码/缩放点积注意力/多头注意力开始本文模型的特点是都加了RLHF,对于本文的这4个模型而言:TRL、ChatLLaMA、ColossalChat、DeepSpeedChat如果只关注两个则可以更多关注下ColossalChat、DeepSpeedChat,原因在于ColossalChat给的图示特别好,而DeepSpeedChat的实现很清晰如果有读者说就只想看一个,则推荐DeepSpeedChat,特别是本文最后会给你一个完整而通透的“PPO算法/RLHF”的代码实现全