OpenAI版权风波再起：意外删数据，《纽约时报》等索赔陷困境？-人工智能-ITBear科技资讯

【ITBEAR】近日，两家知名媒体《纽约时报》与《每日新闻》联合对人工智能技术巨头OpenAI提起诉讼，指控其未经授权使用了它们的作品来训练AI模型。这一消息引发了广泛关注。

事情的起因要追溯到今年秋季，当时OpenAI同意向两家媒体提供两台虚拟机，以便它们的律师可以在AI训练集中查找受版权保护的内容。虚拟机，作为一种基于软件的计算机，通常用于测试、数据备份和应用程序运行，这次被赋予了新的使命。

然而，在双方合作的过程中，却出现了一次意外的波折。据《纽约时报》与《每日新闻》的律师透露，自11月1日起，他们及其聘请的专家已经花费了超过150个小时的时间，在OpenAI的训练数据中搜寻证据。然而，就在11月14日，OpenAI的工程师却意外删除了其中一台虚拟机上存储的所有搜索数据。

尽管OpenAI随后尝试恢复数据，并且取得了一定的成功，但由于文件夹结构和文件名的丢失，这些恢复的数据已经无法用于确定哪些文章被用于构建OpenAI的模型。这意味着，《纽约时报》与《每日新闻》的律师和专家不得不从头开始，重新进行他们的工作。

“我们被迫投入了大量的人力和计算机处理时间，重新制作我们的工作。”两家媒体的律师在提交给纽约南区美国地方法院的信件中写道，“我们昨天才得知恢复的数据无法使用，专家和律师整整一周的工作必须重新完成。”

尽管原告律师明确表示，他们没有理由相信这次删除是故意的，但他们认为，这一事件凸显了OpenAI在自身数据集中搜索潜在侵权内容方面的强大能力。这也让人们对OpenAI的数据管理和合规性产生了质疑。

对于此次诉讼，OpenAI方面则坚称，使用公开数据（包括《纽约时报》和《每日新闻》的文章）来训练模型是合理使用。他们表示，在创建如GPT-4o这样的模型时，无需获得许可或以其他方式为这些示例付费，即使他们从这些模型中获得了收益。然而，这一观点并未得到两家媒体的认同。

值得注意的是，尽管面临诉讼，OpenAI已经与越来越多的新出版商签署了许可协议。其中包括美联社、Axel Springer（Business Insider的所有者）、金融时报、Dotdash Meredith（People的母公司）和新闻集团等。尽管OpenAI拒绝公开这些交易的条款，但有报道称，其中一个内容合作伙伴每年至少获得1600万美元的报酬。这也显示了OpenAI在内容版权方面的积极态度和策略。

截至目前，OpenAI既没有确认也没有否认其在未经许可的情况下将其AI系统训练在任何特定的受版权保护的作品上。这场诉讼的结果如何，还有待进一步观察。