LLM在140k囚犯的困境测试中显示战略人物


数字艺术品描绘了坐在桌子上的三个人形AI人物,代表了领先的AI模型:双子座(左,橙色线框),Claude(中心,在青色中)和Chatgpt(右,蓝色)。每个数字都向内朝向桌子,好像参与了战略讨论。在它们上方,将简化的囚犯的困境收益矩阵带有两个标签 "合作" 和 "缺点。" 行显示结果:左上(3,3),左下(4,1),右上角(1,4),右下(2,2)。视觉效果表明,AI模型正在参与游戏理论方案,克劳德(Claude)显然是中性和观察性的,而双子座和Chatgpt显然在审议中相互审议。背景是黑暗的,具有微妙的代码状模式,强调了计算上下文。你说:

关键要点:

  • 研究人员进行了140,000轮囚犯的困境,使双子座,克劳德(Claude)和Openai的模特相互对抗。

  • 每个模型在决策前都产生书面理由,揭示了影响其选择的模式分析和匹配终止概率计算。

  • 双子座表现得无情地自适应; Openai的模型即使在剥削下也倾向于合作社。

  • Openai的Chatgpt模型也赞成长期合作,即使短期背叛将带来更高的回报。

  • Anthropic的Claude在背叛后表现出最高的宽恕。

  • 跨模型出现了独特的战略“指纹”,表明推理能力不断发展。

  • 随着LLM承担谈判和资源分配等任务,它们的独特策略可以显着塑造结果。

LLMS中的战略推理:研究概述

一组研究人员采用进化游戏理论来评估大型语言模型(LLMS)如何战略计划。他们进行了140,000次经典囚犯困境的迭代,这是一场两人游戏,涉及合作或缺陷的选择。收益取决于相互决定,激励战略远见。

在采取每一步之前,模型产生了书面理由。这些解释表明,AI代理不仅检查了对手行为模式,而且还估计了匹配终止的可能性,这是迈向长期战略发展的复杂步骤。

模型揭示了独特的“人格”模式

尽管接受了类似的互联网文本和书面材料的培训,但每个模型都显示出独特的行为签名:

  • 双子座(Google): 动态和残酷地适应对手的动作,在合作和叛逃之间迅速切换,以最大化结果。

  • Openai(chatgpt): 倾向于合作,即使反复被剥削 – 对信任或风险缓解的内置偏见以短期的利益为代价。

  • 人类的克劳德: 表现出最高的“宽恕率”,愿意在背叛后重返合作,这表明了一种更具宽恕的弹性策略。

研究团队绘制了这些行为“指纹”,以可视化每个模型在获胜或背叛后的反应方式,从而突出了整个系统之间的战略性差异。

对高级AI应用程序的影响

该研究表明,LLM的作用不仅仅是模式匹配。他们在战略上计划。随着LLM在谈判,资源管理和冲突解决方案中扮演角色时,这些新兴的“战略人物”可能会以意想不到的方式塑造现实的成果。信任,合作和适应性的差异可能会影响AI的一致性,多机构协调和道德部署。

AI读者的快速事实

问:该研究调查了什么?

一个: LLM是否可以使用游戏理论和理性书面理由发展持续的战略行为。

问:测试了哪些模型?

一个: Google的双子座,人类的克劳德(Claude)和多种OpenAI模型。

问:出现了哪些策略?

一个: 残酷的适应(双子座),合作偏见(Openai)和宽恕优先(克劳德)。

一个: 它强调,LLM能够作为不同的“战略人物”制定决策,这为AI安全和协调提出了新的问题。

这意味着什么

这项研究提供了令人信服的证据,表明LLM可以从战略上推理,而不仅仅是反映了学习的模式。由于这些系统被部署在更复杂,多代理的场景中,例如业务谈判,全球物流或策略模拟,它们固有的“个性”可能会产生截然不同的结果。这些发现强调了需要理解的必要性,并在必要时指导这些新兴的特征,以实现AI的一致性和可预测的决策。

这项研究发现LLM表现出独特的战略“个性”具有深远的影响:

  • 人工智能中有限理性的证据: 这些模型不仅遵循脚本规则;他们采用基于结果的启发式方法(例如人类)展示了选择性适应和对改变游戏动态的敏感性不一致。这种行为反映了人类有限的理性,这是现实世界决策的核心特征。

  • 现实世界战略的影响: 这些行为指纹(例如宽恕,适应或合作偏见)可以在多方谈判,资源分配或解决冲突等任务中塑造高风险。例如,“无情”的模型可能会以牺牲长期信任为代价的积极优化,而更宽容的人可能会维持长期的伙伴关系。

  • AI的一致性和治理: 正如人类面临主要代理挑战一样,LLM也是如此。他们独特的策略揭示了新的未对准风险。例如,对叛逃敏感性低的模型可能有助于建立信任,但是具有高度叛逆的厌恶的模型可能会意外破坏合作。

  • 设计多代理AI系统: 在多个LLM相互作用(无论是在数字市场还是AI驱动的治理工具中)的环境中,其行为差异都会偏向集体成果。确保公平和可预测的行为需要了解这些新兴的特征并有意设计它们。

  • 及时工程作为个性调制: 最近的研究表明,个性转向 – 诸如同意或尽职尽责的特征 – 可以塑造LLM战略行为。这为设计专门构建的AI代理(例如“调解人”与“硬线谈判者””)开辟了新的可能性,以实现不同的角色和结果。

简而言之,这项工作超越了绩效指标,以揭示LLMS中的战略认同:它们不仅可以执行,他们选择,评估和记住。为了负责任地部署它们,我们必须认识并指导这些不断发展的行为签名。这不仅仅是建立更智能的AI,而是要塑造这些模型成为谁。

编者注: t他的文章是由Ainews.com的CMO Alicia Shapiro创作的,并由AI助手Chatgpt的写作,图像和创意支持。但是,最终的观点和社论选择仅是艾丽西亚·夏皮罗(Alicia Shapiro)的选择。特别感谢Chatgpt在编写本文时为研究和编辑支持提供的帮助。



Source link

0
分享到:

评论0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
没有账号? 忘记密码?