近期,全球就业市场正经历一场前所未有的震荡,多家科技巨头相继公布的裁员计划引发广泛关注。据统计,被削减的岗位总数高达17万,其中亚马逊作为美国第二大雇主,通过内部邮件宣布一次性裁撤1.4万个岗位,而这场裁员潮的背后,AI技术的快速发展被视为主要推手。
在就业竞争愈发激烈的背景下,12万名美国大学毕业生争抢1.7万个岗位的现象凸显了就业市场的严峻性。数据显示,每七个求职者中仅有一人能获得工作机会,而白领阶层成为受冲击最严重的群体之一。与此同时,关于AI取代人类工作的担忧甚嚣尘上,但最新研究给出了截然不同的结论。
由Scale AI和Center for AI Safety联合开展的研究显示,尽管AI技术在实验室测试中表现亮眼,但在真实工作场景中的自动化率不足3%。研究团队提出的远程劳动指数(RLI)基准,通过收录来自游戏开发、建筑设计、数据分析等领域的真实项目,揭示了AI与人类工作能力的现实差距。这些项目平均耗时超过100小时,部分成本高达1万美元,总计涵盖6000小时的真实工作量。
研究过程中,358名拥有Upwork认证的自由职业者参与了数据收集,他们平均完成89个项目,总收入达2.3万美元。经过严格筛选,最终形成的240个项目数据集显示,AI在执行复杂任务时仍存在显著局限。例如,在建筑设计和网页开发等需要跨领域协作的场景中,AI常因无法验证交互效果或修正错误而导致交付成果不合格。
在定量评估中,全球六大顶尖AI模型的表现令人意外。即便是表现最佳的Manus模型,自动化率也仅为2.5%。研究人员通过配对比较法计算的Elo评分显示,新一代模型虽相对旧模型有所提升,但绝对性能仍远低于人类水平。定性分析则进一步指出,AI交付成果被拒的主要原因包括技术缺陷、内容不完整、质量不达标以及跨文件不一致等问题。
值得注意的是,AI在特定领域展现出超越人类的能力。在音频处理、图像生成等创意任务中,部分模型交付的成果可与专业人类工作者媲美。例如,Claude 4.5 Sonnet在简单网页可视化任务中的表现优于人类,AI生成的营销素材也成功解决了部分实际问题。然而,这些成功案例多集中于AI技能发展较成熟的领域,而在需要复杂交互验证的场景中,AI仍无法替代人类。
研究团队强调,当前AI系统的局限性主要源于世界知识不足和错误修正能力缺失。在涉及多步骤、长周期的真实工作中,AI既无法像人类一样通过经验积累改进,也难以在出现偏差时及时调整。这种缺陷在需要严格标准控制的领域尤为明显,例如生成损坏文件、提交不完整素材等问题频繁出现。
尽管AI技术发展迅速,但真实劳动力市场的需求远比实验室测试复杂。既有基准测试多聚焦于短任务、明确规则的学术场景,而RLI基准通过还原自由职业市场的实际工作形态,为评估AI经济价值提供了更可靠的参照。数据显示,人类完成RLI项目的平均耗时与Upwork平台真实数据高度吻合,而传统基准测试覆盖的工种范围远不及实际市场广泛。

