马腾_JJZJJ

鉴于语言模型预训练成本巨大，因而研究者一直在寻找减少训练时间和成本的新方向。Adam及其变体多年来一直被奉为最先进的优化器，但其会产生过多的开销。本文提出了一种简单的可扩展的二阶优化器Sophia，在与Adam比较中，Sophia在减少了50%step数量的情况下实现了与Adam相同的验证预训练损失。大语言模型（LLM）的能力随着其规模的增长而取得了显著的进展。然而，由于庞大的数据集和模型规模，预训练LLM非常耗时，需要进行数十万次的模型参数更新。例如，PaLM在6144个TPU上进行了为期两个月的训练，总共耗费大约1000万美元。因此，提高预训练效率是扩展LLM规模的一个主要瓶颈。本文来自斯