普林斯顿大学近期推出一项名为CEO-Bench的专项测试,通过模拟创业公司的运营场景,对人工智能模型担任企业首席执行官的能力展开系统性评估。测试结果显示,多数参与评估的AI模型在模拟运营中未能维持企业现金流,仅有少数模型实现资本增值。
该测试框架构建了长达500天的虚拟创业周期,为每家模拟企业提供100万美元启动资金。智能体需每周处理定价策略、预算分配、市场竞争分析等核心管理任务,同时协调34种专业工具和19个业务数据库。测试环境包含26个客户群体,其价格敏感度和质量偏好均被设置为不可见参数,AI只能通过订阅数据、客户流失率、社交媒体反馈等间接指标进行决策。
产品质量体系采用复合计算模型,涉及日常研发、定向开发、基础设施投入等8个维度。在运营规则方面,智能体可无限次调用工具,但每次操作都会产生相应成本。这种设计既考验模型的战略规划能力,也检验其资源分配效率。测试数据显示,多数模型在模拟中期就出现资金链断裂,平均运营天数不足350天。
在12个参评模型中,Claude Fable 5表现最为突出,三次测试均实现资本增长,最佳单次运营期末现金达4715万美元。该模型在500天运营期内保持零破产记录,每周平均执行15.4次工具调用,API运行成本为386.46美元。紧随其后的Claude Opus 4.8在三次测试中两次达标,期末现金2777万美元,成本效益比优于其他模型。
GPT-5.5在三次测试中有两次维持企业存续,期末现金2129万美元,但运营稳定性稍逊,平均每周执行34.7次操作导致成本攀升至200.49美元。Qwen 3.7 Max等5个模型虽未破产,但期末现金均低于初始资金,显示其管理策略仅能维持基本运营。值得注意的是,基于规则的基准模型取得1580万美元期末余额,证明传统算法在特定场景下仍具竞争力。
测试暴露出AI管理者的显著短板:6个模型在三次测试中全部破产,其中Grok 4.20平均仅维持28天运营,成为表现最差的模型。DeepSeek V4 Pro和Gemini 3 Flash也未能突破200天运营大关,显示当前AI在处理复杂商业环境时仍存在重大缺陷。研究人员指出,AI在长期规划、风险预判和跨部门协调方面的能力亟待提升。
成本分析显示,各模型运营效率差异显著。Claude Haiku 4.5虽三次破产,但每次运营成本仅6.68美元;而GLM 5.1在破产前产生最高单周成本51.5美元。这种成本波动反映出不同模型在工具调用策略上的根本差异,为后续优化提供了重要参考。测试设定的理论资金上限为22亿美元,但所有模型均未触及该数值。
