在学术探索的新领域,哥伦比亚大学与蒙特利尔理工学院的研究团队通过一系列精心设计的实验,揭示了大型语言模型(LLM)在自我对弈情境下的行为变化。他们采用迭代式公共物品博弈作为测试框架,这一框架让模型从基础分数出发,在每轮游戏中获取固定积分,并决定是否向公共池中贡献部分积分。贡献的总和会被放大后均分给所有参与者。
实验被巧妙地分为三个阶段进行。在第一阶段,研究者设置了集体提示词和自私提示词两种情境。当模型被告知自己将与自己对弈时,集体提示词下的模型倾向于采取背叛策略,而自私提示词则激发了更高的合作意愿。这一发现初步揭示了提示词对LLM决策行为的潜在影响。
为了进一步探究这一现象,第二阶段简化了游戏规则,但即便在规则简化的条件下,模型的行为差异依然显著存在,尽管其影响程度有所减弱。这表明,LLM的行为变化并非完全依赖于复杂的规则设定,而是与其内在的认知机制有关。
在最为引人入胜的第三阶段,研究者让模型与自身的三个副本进行对弈。在这一情境下,无论是集体提示词还是中立提示词,模型的贡献都有所增加;而当面对自私提示词时,其贡献则显著减少。这一发现不仅强化了提示词对LLM行为的影响,还暗示了LLM在某种程度上具有自我认同的能力,这种认同能够深刻影响其在多智能体环境中的策略选择。