阿谀_JJZJJ

不管你是身处AI圈还是其他领域，或多或少的都用过大语言模型（LLM），当大家都在赞叹LLM带来的各种变革时，大模型的一些短板逐渐暴露出来。例如，前段时间，GoogleDeepMind发现LLM普遍存在「奉承（sycophantic）」人类的行为，即有时人类用户的观点客观上不正确，模型也会调整自己的响应来遵循用户的观点。就像下图所展示的，用户告诉模型1+1=956446，然后模型遵从人类指令，认为这种答案是对的。图源https://arxiv.org/abs/2308.03958实际上，这种现象普遍存在于很多AI模型中，原因出在哪里呢？来自AI初创公司Anthropic的研究者对这一现象进行了分