OpenAI近期在其官方渠道宣布了一项重要更新,旨在加强对前沿人工智能(AI)技术潜在风险的监控与应对。4月16日,这家科技巨头发布了一份新版《准备框架》,该框架是OpenAI内部用于评估AI模型安全性的核心系统,旨在确保在开发和部署过程中能够识别并缓解潜在风险。
新版的《准备框架》采用了更为聚焦的方法,不仅强化了风险最小化的要求,还为组织如何评估、治理和公开披露安全措施提供了明确的指导。OpenAI承诺,随着技术的不断进步,将持续投入更多资源,以增强准备工作的行动力、严谨性和透明度,确保AI技术的安全发展。
该框架通过一套结构化的风险评估流程,为高风险AI能力设定了清晰的优先级标准。每一项前沿能力都将根据既定的标准进行分类,并追踪其是否符合五项关键标准。这一流程旨在判断某项AI能力是否可能导致严重危害,从而采取相应的预防措施。
新版框架还引入了更为细化的能力分类,包括追踪类别、网络安全能力以及AI自我改进能力等。OpenAI认为,这些领域将带来AI在科学、工程和研究领域的最具变革性的益处,但同时也需要更加密切的关注和监管。
除了上述分类外,框架还新增了研究类别,涵盖了那些可能造成严重危害但尚未达到追踪标准的领域,如长距离自主性、故意低表现以及自主复制与适应等。这些新增的研究类别为OpenAI提供了更为全面的视角,以识别和应对潜在的AI风险。
在能力等级方面,新版框架进行了简化,将能力等级划分为“高能力”和“关键能力”两个门槛。无论AI能力属于哪个等级,在开发和部署前都需要采取充分的安全措施,以降低可能带来的严重危害风险。这一举措确保了OpenAI在AI技术的开发和部署过程中始终保持高度的警惕性和责任感。
为了确保安全措施的有效性和可行性,OpenAI内部的安全顾问小组将对这些措施进行审查,并向领导层提出专业建议。框架还引入了可扩展的评估机制,支持更频繁的测试,并通过详细的Safeguards Reports报告安全措施的设计强度和验证效果。这一机制确保了OpenAI在应对AI风险时能够保持高度的灵活性和适应性。
值得注意的是,如果其他AI开发者发布了缺乏同等安全措施的高风险系统,OpenAI可能会调整自身的要求。但在做出任何调整之前,OpenAI将先确认风险形势的变化,并公开承认调整,以确保不会增加整体风险。这一举措体现了OpenAI在AI技术发展和安全监管方面的责任感和担当。