因果推理赋能AI新范式：黄碧薇要让机器人“知其然更知其所以然”-业界动态-ITBear科技资讯

2011年，Judea Pearl因在因果推理领域的开创性贡献获得图灵奖，他提出人工智能需跨越关联、干预、反事实三层认知阶梯。十五年后，深度学习沿数据驱动路径发展出GPT等大模型，但行业逐渐意识到：预测结构与因果结构存在本质差异。模型能通过生物指标预测疾病进展，却无法分辨病因与症状；可模仿机械臂轨迹，却无法理解动作背后的物理规律。这种局限性在环境变化时尤为明显——相关性模型往往因分布偏移而失效。

2026年，世界模型成为AI领域竞争焦点。LeCun创立AMI Labs押注JEPA架构，李飞飞团队发布商用产品Marble，Google DeepMind推出Genie 3，NVIDIA Cosmos下载量突破200万次。尽管各家均宣称"理解物理世界"，但鲜有将因果机制作为系统底层架构。在机器人控制领域，视觉-语言-动作模型（VLA）通过海量示教数据训练泛化能力，却面临部署性能不可预测退化、抗干扰能力薄弱等问题。这暴露出关键认知差异：观察机器人完成抓取（P(Y|X)）与让机器人主动执行抓取（P(Y|do(X))）存在本质区别，而现有模型大多停留在前者层面。

总部位于圣地亚哥的AetherAI及其创始人黄碧薇正引发行业关注。这家成立不久即获得经纬创投2000万美元领投的初创企业，其技术团队约20人，却串联起马普所、CMU、UCSD三处学术资源。作为UCSD助理教授，黄碧薇师从因果发现奠基人Clark Glymour、Kun Zhang和Bernhard Schölkopf，在因果领域深耕12年。她直言不讳地指出："VLA本质是死记硬背训练数据中的模式，桌面高度变化两厘米就可能导致失败。"这种判断源于其学术积淀——她硕士期间在德国马普所转向因果推理研究，博士阶段在CMU专注非平稳环境下的因果结构识别问题。

AetherAI提出以因果智能为核心的下一代AI范式，其技术栈包含四层架构：底层Causation Transformer直接在注意力机制中学习因果关系；第二层模块化架构将不同因果机制解耦为可组合单元；第三层因果世界模型模拟干预后的状态转移；顶层智能体具备规划归因能力。这种设计与主流"世界模型"形成鲜明对比——传统模型或专注于像素级预测，或止步于空间几何重建，却无法回答"如果改变操作方式，世界将如何变化"的核心问题。黄碧薇用数学方程阐释本质差异：状态转移方程描述动作引发的状态变化，观测函数建立隐变量与可测数据间的映射，奖励函数量化行为后果，三者共同构成因果世界模型的基石。

在机器人决策大脑的落地场景中，该技术展现出显著优势。内部测试显示，在操作任务、移动控制和长程规划中，其成功率较传统模型提升25%-50%，样本效率提高5-10倍，且在任务、环境、奖励函数变化时保持泛化能力。这种突破源于对因果变量的结构化提取——不同于JEPA架构在隐空间保留平滑信号却丢失关键细节，AetherAI通过解耦因果变量，使模型理解摩擦力、接触面等物理要素的相互作用机制。黄碧薇以桌面推杯子任务为例：传统模型更换桌面材质即失效，而因果模型通过识别力学关系不变性，可自动调整操作策略。

创业决策背后是学术积累与产业需求的双重驱动。黄碧薇坦言，前期专注科研夯实理论基础，当具身智能领域在VLA路线遭遇瓶颈时，她意识到"让模型理解规律比死记硬背更重要"的时机已至。这种判断获得导师团队支持：Kun Zhang担任公开顾问，Clark Glymour提供内部指导。团队组建过程中，其因果领域第三代学者的身份发挥关键作用——既熟悉核心研究者学术脉络，又能吸引新生代人才加入。目前团队构成呈现交叉特征：既有因果理论专家，也包含大模型基础设施和机器人全栈工程师。

从学术到产业的转型充满挑战。黄碧薇透露，投融资环节需要向投资人解释新范式的必要性，内部管理则需协调学校职责与公司运营。在CVPR2026的首次亮相中，团队通过展台、午餐会等形式展示技术理念，获得高校研究者、企业工程师的积极反馈。这种认可印证了她的判断：当市面上各种"世界模型"缺乏统一标准时，基于因果推理的架构定义了终极形态。

技术路线选择源于对AI范式演进的深层思考。黄碧薇将三十年发展划分为四个阶段：90年代基于相关性的小模型、2010年前后因果小模型、当前相关性大模型，以及正在兴起的因果大模型。她指出，LLM的成功揭示了scaling law的重要性，但在物理世界任务中，需将scaling与因果理论结合——语言符号已包含人类压缩的高层概念，而视频、传感器信号中的因果变量需要模型自主提取。这种认知驱动着基础模型开发：预计2027年上半年发布的首个版本，将聚焦机器人操作任务的泛化性能，后续版本计划整合移动与操作能力，最终实现开放环境中的终身学习。

对于行业格局变化，黄碧薇预测现有机器人厂商可能面临洗牌。她以大语言模型发展类比：当决策大脑技术收敛到确定范式，具备因果推理能力的系统将占据主导地位。这种判断促使AetherAI采取双轨战略：现阶段专注模型开发，长期规划组建本体团队。在科学发现等远期目标中，生物长寿研究被选为首个应用场景，源于T细胞层面相对成熟的数据积累和认知基础。当被问及因果模型能否消除AI幻觉时，她以华盛顿州首府问题为例：GPT-3可能因"西雅图"与"华盛顿州"的高频共现而给出错误答案，而因果模型通过理解行政划分逻辑可避免此类错误，这印证了"结构化压缩才是智能本质"的核心主张。