鉴于语言模型预训练成本巨大,因而研究者一直在寻找减少训练时间和成本的新方向。Adam及其变体多年来一直被奉为最先进的优化器,但其会产生过多的开销。本文提出了一种简单的可扩展的二阶优化器Sophia,在与Adam比较中,Sophia在减少了50%step数量的情况下实现了与Adam相同的验证预训练损失。大语言模型(LLM)的能力随着其规模的增长而取得了显著的进展。然而,由于庞大的数据集和模型规模,预训练LLM非常耗时,需要进行数十万次的模型参数更新。例如,PaLM在6144个TPU上进行了为期两个月的训练,总共耗费大约1000万美元。因此,提高预训练效率是扩展LLM规模的一个主要瓶颈。本文来自斯