Meta争锋AI领域，为超越GPT-4，Llama 3训练数据引争议-人工智能-ITBear科技资讯

近日，一场围绕meta人工智能版权问题的法律纠纷，意外揭露了这家科技巨头在AI领域的雄心壮志与内部竞争态势。在Kadrey诉meta一案中，法庭公开的meta高管及研究人员的通信记录，为人们提供了一个窥视其AI研发内部运作的窗口。

据这些文件显示，meta在打造其最新AI模型Llama 3的过程中，将超越OpenAI的GPT-4视为至关重要的目标。meta生成式AI副总裁Ahmad Al-Dahle在2023年10月发给研究员Hugo Touvron的信息中直言不讳：“我们的目标必须是GPT-4。我们即将拥有64,000个GPU，必须学会如何构建前沿技术，并在这场竞赛中胜出。”

尽管meta在开源AI模型领域享有盛誉，但其AI团队显然更加关注如何超越那些不公开模型权重的竞争对手，如Anthropic和OpenAI。meta的高管和研究人员将Anthropic的Claude和OpenAI的GPT-4视为行业标杆，并以此为努力方向。相比之下，对于法国AI初创公司Mistral，meta则显得颇为不屑。Al-Dahle在消息中直言：“Mistral对我们来说不值一提，我们应该能做得更好。”

在这场AI竞赛中，meta的AI领导层展现出了高度的竞争心态。他们多次在内部交流中提及，在获取训练Llama模型所需数据时表现得“非常激进”。一位高管甚至在一封内部邮件中透露：“Llama 3几乎是我唯一关心的事情。”这种激进的竞争策略，虽然推动了meta在AI领域的快速发展，但也为其带来了法律问题。

检察官指控meta高管在匆忙推出AI模型的过程中，涉嫌使用受版权保护的书籍进行训练。Touvron在一份消息中指出，用于训练Llama 2的数据集“质量不佳”，并讨论了如何优化数据源以提升Llama 3的表现。随后，Touvron和Al-Dahle讨论了使用LibGen数据集的可能性，该数据集包含了多家出版商的受版权保护作品。Al-Dahle在消息中询问：“我们是否有合适的数据集？有没有什么数据是你想用却因为某些愚蠢的原因无法使用的？”

meta首席执行官马克·扎克伯格此前曾表示，他正致力于缩小Llama模型与OpenAI、谷歌等公司的闭源模型之间的性能差距。内部消息显示，meta为实现这一目标承受了巨大压力。扎克伯格在2024年7月的一封信中写道：“今年，Llama 3已经能够与最先进的模型竞争，并在某些领域处于领先地位。从明年开始，我们预计未来的Llama模型将成为行业中最先进的。”

经过不懈努力，meta在2024年4月正式发布了Llama 3。这款开源AI模型在性能上与谷歌、OpenAI和Anthropic的闭源模型不相上下，甚至超越了Mistral的开源模型。然而，meta用于训练模型的数据的版权状态却存疑。尽管扎克伯格据称批准了这些数据的使用，但多起诉讼正在对其进行审查。

这场围绕meta AI版权问题的法律纠纷，不仅揭示了meta在AI领域的雄心壮志和内部竞争态势，也引发了人们对于AI发展中数据版权问题的关注。随着AI技术的不断进步和应用领域的不断拓展，如何平衡技术创新与版权保护之间的关系，将成为未来科技领域亟待解决的问题之一。