近期,AI领域迎来新进展,DeepSeek公司发布了其R1推理AI模型的最新升级版。该版本在多个数学及编程领域的基准测试中表现抢眼,引发了广泛关注。然而,围绕其训练数据源的谜团,却让部分AI研究人员心生疑虑。
据悉,有开发者发现DeepSeek的R1-0528模型在表达风格上与Google的Gemini AI系列存在诸多相似之处。墨尔本的开发者Sam Paeach指出,从用词到句式,两者间有着难以忽视的一致性。更令人瞩目的是,匿名SpeechMap项目创始人也透露,DeepSeek模型在推理时展现出的“思考路径”与Gemini惊人地相似,这进一步加剧了业界对于DeepSeek训练数据源的猜测。
事实上,这并非DeepSeek首次陷入此类争议。去年12月,其V3模型因频繁误认自己为OpenAI的ChatGPT而饱受批评,这一行为让人怀疑其是否利用了ChatGPT的聊天记录进行训练。今年早些时候,OpenAI公开表示,已发现DeepSeek涉嫌使用“数据蒸馏”技术的证据。据彭博社报道,微软在2024年底察觉到,一些通过OpenAI开发者账户泄露的数据可能与DeepSeek有关。
尽管“数据蒸馏”在AI界并不鲜见,但OpenAI对此有着严格的限制,禁止用户利用模型输出开发竞品。然而,在开放网络环境中,由于大量低质量内容的存在,AI模型间相互模仿用词和措辞的现象并不罕见,这无疑为追踪真实训练数据增添了难度。
对此,人工智能专家Nathan Lambert表示,DeepSeek使用Google Gemini数据进行训练的可能性并非空穴来风。他指出,DeepSeek资金雄厚,完全有能力利用市面上最先进的API模型生成合成数据。为了应对数据提炼带来的风险,AI公司们正不断强化安全措施。OpenAI已要求组织在完成身份验证后才能访问高级模型,而Google也在提升其AI Studio平台的安全性,限制对模型内部运行轨迹的访问权限。