普林斯顿大学近期开展了一项引人注目的实验:让AI担任虚拟SaaS公司的CEO,在500天的模拟运营中接受市场考验。这场名为CEO-Bench的竞赛吸引了14个AI模型参与角逐,最终仅有4个成功保住初始资金,其中表现最优异的竟是一个基于固定规则的传统算法。
实验设定极具挑战性:每个AI从100万美元本金和零客户起步,需在动态变化的商业环境中做出定价、研发、营销等全方位决策。系统提供的Python API包含34个工具和19个数据库,允许AI通过代码和SQL查询实时调整策略。更复杂的是,AI还需监控模拟社交网络中的客户反馈和竞争对手动态,其决策权限与人类CEO完全等同。
这场"数字生存游戏"暴露出AI决策的致命弱点。当面对广告投放的延迟回报、研发预算的长期影响等复杂因果关系时,多数模型陷入困境。GLM 5.1、Claude Haiku 4.5等五个模型在模拟中途即因资金耗尽退出比赛,暴露出AI在处理不确定性时的普遍短板。客户满意度、支付意愿等关键指标的隐式存在,使得统计方法难以奏效。
冠军Claude Fable 5的表现堪称惊艳。这个模型不仅将本金增值47倍至4715万美元,更在多次重复实验中保持稳定收益。其成功秘诀在于动态策略调整:当市场变化时,Fable 5会主动尝试新的客户获取方式、层级结构和预算分配。相比之下,保守型模型如Opus 4.7虽通过削减成本存活到最后,却未能实现盈利。
出人意料的是,排名第四的胜出者并非前沿大模型,而是一个基于固定规则的启发式算法。这个"数字阿甘"通过预设的定价策略和资源分配方案,在复杂环境中斩获1576万美元收益,超越了多数AI竞争对手。这一结果引发对AI适用性的深刻反思:在特定场景下,简单规则可能比复杂模型更具鲁棒性。
研究团队通过分析模型备忘录,提炼出四个关键能力维度:发现隐藏信息、未来预测精度、环境适应速度和战略规划能力。表现优异的模型普遍展现出更强的"情景预判"能力,其决策日志中包含大量"如果-那么"的条件判断。这表明,顶级AICEO需要具备某种形式的"商业直觉"来应对不确定性。
实验还颠覆了关于编程Agent的普遍认知。当研究人员为模型配备代码生成工具时,两个参赛者的行动次数和最终收益均显著下降。问题出在系统提示词的错配——为软件开发优化的指令框架,反而限制了AI在商业决策中的灵活性。这暗示着垂直领域可能需要定制化的AI架构,而非通用解决方案。
回望科技史,伟大突破往往源于人类对复杂性的简化能力。乔布斯在1997年用2x2矩阵重构苹果产品线,黄仁勋押注深度学习,这些决策都展现出超越数据计算的直觉力量。当前AI虽能高效填充预设框架,但构建战略框架的创造力仍属人类专属。这场实验或许正在提示:在AI时代,商业领袖的核心价值可能正在发生根本性转变。