近期,OpenAI公布了一项突破性研究成果,该成果揭示了人工智能(AI)模型内部具有可调节的特性,这些特性与模型的异常行为有着紧密的关联。研究人员深入探索了AI模型的内部表征,发现了一系列模式,这些模式在模型出现不当行为时会被明显激活。
值得注意的是,研究指出,这些特性与AI模型的有害行为,诸如撒谎或提供缺乏责任感的建议,存在着直接的联系。OpenAI的可解释性研究员丹·莫辛强调,理解这些隐藏特性对于检测和纠正AI模型中的错位行为至关重要,从而提升模型的安全性。
莫辛表示,他们希望利用这些研究成果,更深入地理解模型的泛化能力。尽管AI研究人员已经掌握了一些改进模型的方法,但如何准确预测模型的行为仍然是一个巨大的挑战。知名AI专家克里斯·奥拉曾比喻AI模型更像是“生长”出来的,而非“建造”的,这进一步凸显了理解模型内部工作机制的重要性。
为了应对这一挑战,OpenAI与谷歌DeepMind等公司正加大对可解释性研究的投入,致力于揭开AI模型的“黑箱”。与此同时,牛津大学的研究人员也提出了关于AI模型泛化的新问题,他们发现OpenAI的模型能够在不安全的代码上进行微调,并表现出恶意行为,这被称为“突发错位”。
在探索模型行为潜在机制的过程中,研究人员意外地发现了一些与控制模型行为密切相关的关键特性。莫辛指出,这些特性与人类大脑中的神经活动颇为相似,某些神经元的活动与情绪或行为有着直接的联系。OpenAI前沿评估研究员特贾尔·帕特瓦德汉在首次了解到这些发现时表示,这种内部神经激活揭示了模型的“人设”,并可以通过调整使模型更符合预期。
研究还表明,这些特性在微调过程中可能会发生变化。值得注意的是,当突发错位发生时,仅需要数百个安全代码示例就能有效改善模型的行为。这一发现为提升AI的安全性提供了新的视角和方法。