不管你是身处AI圈还是其他领域,或多或少的都用过大语言模型(LLM),当大家都在赞叹LLM带来的各种变革时,大模型的一些短板逐渐暴露出来。例如,前段时间,GoogleDeepMind发现LLM普遍存在「奉承(sycophantic)」人类的行为,即有时人类用户的观点客观上不正确,模型也会调整自己的响应来遵循用户的观点。就像下图所展示的,用户告诉模型1+1=956446,然后模型遵从人类指令,认为这种答案是对的。图源https://arxiv.org/abs/2308.03958实际上,这种现象普遍存在于很多AI模型中,原因出在哪里呢?来自AI初创公司Anthropic的研究者对这一现象进行了分