AI模拟当CEO挑战500天：多数模型折戟，Claude Fable 5成最大赢家-人工智能-ITBear科技资讯

普林斯顿大学近期推出一项名为CEO-Bench的专项测试，通过模拟创业公司的运营场景，对人工智能模型担任企业首席执行官的能力展开系统性评估。测试结果显示，多数参与评估的AI模型在模拟运营中未能维持企业现金流，仅有少数模型实现资本增值。

该测试框架构建了长达500天的虚拟创业周期，为每家模拟企业提供100万美元启动资金。智能体需每周处理定价策略、预算分配、市场竞争分析等核心管理任务，同时协调34种专业工具和19个业务数据库。测试环境包含26个客户群体，其价格敏感度和质量偏好均被设置为不可见参数，AI只能通过订阅数据、客户流失率、社交媒体反馈等间接指标进行决策。

产品质量体系采用复合计算模型，涉及日常研发、定向开发、基础设施投入等8个维度。在运营规则方面，智能体可无限次调用工具，但每次操作都会产生相应成本。这种设计既考验模型的战略规划能力，也检验其资源分配效率。测试数据显示，多数模型在模拟中期就出现资金链断裂，平均运营天数不足350天。

在12个参评模型中，Claude Fable 5表现最为突出，三次测试均实现资本增长，最佳单次运营期末现金达4715万美元。该模型在500天运营期内保持零破产记录，每周平均执行15.4次工具调用，API运行成本为386.46美元。紧随其后的Claude Opus 4.8在三次测试中两次达标，期末现金2777万美元，成本效益比优于其他模型。

GPT-5.5在三次测试中有两次维持企业存续，期末现金2129万美元，但运营稳定性稍逊，平均每周执行34.7次操作导致成本攀升至200.49美元。Qwen 3.7 Max等5个模型虽未破产，但期末现金均低于初始资金，显示其管理策略仅能维持基本运营。值得注意的是，基于规则的基准模型取得1580万美元期末余额，证明传统算法在特定场景下仍具竞争力。

测试暴露出AI管理者的显著短板：6个模型在三次测试中全部破产，其中Grok 4.20平均仅维持28天运营，成为表现最差的模型。DeepSeek V4 Pro和Gemini 3 Flash也未能突破200天运营大关，显示当前AI在处理复杂商业环境时仍存在重大缺陷。研究人员指出，AI在长期规划、风险预判和跨部门协调方面的能力亟待提升。

成本分析显示，各模型运营效率差异显著。Claude Haiku 4.5虽三次破产，但每次运营成本仅6.68美元；而GLM 5.1在破产前产生最高单周成本51.5美元。这种成本波动反映出不同模型在工具调用策略上的根本差异，为后续优化提供了重要参考。测试设定的理论资金上限为22亿美元，但所有模型均未触及该数值。