DeepSeek新AI模型性能卓越，是否暗藏Google Gemini数据训练之谜？-人工智能-ITBear科技资讯

近期，AI领域迎来新进展，DeepSeek公司发布了其R1推理AI模型的最新升级版。该版本在多个数学及编程领域的基准测试中表现抢眼，引发了广泛关注。然而，围绕其训练数据源的谜团，却让部分AI研究人员心生疑虑。

据悉，有开发者发现DeepSeek的R1-0528模型在表达风格上与Google的Gemini AI系列存在诸多相似之处。墨尔本的开发者Sam Paeach指出，从用词到句式，两者间有着难以忽视的一致性。更令人瞩目的是，匿名SpeechMap项目创始人也透露，DeepSeek模型在推理时展现出的“思考路径”与Gemini惊人地相似，这进一步加剧了业界对于DeepSeek训练数据源的猜测。

事实上，这并非DeepSeek首次陷入此类争议。去年12月，其V3模型因频繁误认自己为OpenAI的ChatGPT而饱受批评，这一行为让人怀疑其是否利用了ChatGPT的聊天记录进行训练。今年早些时候，OpenAI公开表示，已发现DeepSeek涉嫌使用“数据蒸馏”技术的证据。据彭博社报道，微软在2024年底察觉到，一些通过OpenAI开发者账户泄露的数据可能与DeepSeek有关。

尽管“数据蒸馏”在AI界并不鲜见，但OpenAI对此有着严格的限制，禁止用户利用模型输出开发竞品。然而，在开放网络环境中，由于大量低质量内容的存在，AI模型间相互模仿用词和措辞的现象并不罕见，这无疑为追踪真实训练数据增添了难度。

对此，人工智能专家Nathan Lambert表示，DeepSeek使用Google Gemini数据进行训练的可能性并非空穴来风。他指出，DeepSeek资金雄厚，完全有能力利用市面上最先进的API模型生成合成数据。为了应对数据提炼带来的风险，AI公司们正不断强化安全措施。OpenAI已要求组织在完成身份验证后才能访问高级模型，而Google也在提升其AI Studio平台的安全性，限制对模型内部运行轨迹的访问权限。