ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI训练代价高昂,Anthropic耗资数百万购书后竟全部“销毁”?

时间:2025-06-26 18:02:58来源:砍柴网编辑:快讯

近日,人工智能领域的一桩法庭案件揭示了Anthropic公司在训练其AI助手Claude时采取的非常规手段。据外媒报道,Anthropic为获取训练数据,斥巨资将大量实体图书拆解并扫描成数字文件,而这些图书在扫描完成后即被丢弃。

这一行为的核心在于AI训练对海量优质文本的需求。为了构建大语言模型,研究人员需要将数以亿计的词语输入神经网络,并通过反复训练来建立词语与概念之间的联系。编辑过的书籍和文章因其高质量,成为提升AI语言能力的关键资源。

然而,获取这些出版内容的授权往往耗时费力。于是,Anthropic选择了绕过版权的捷径。据法庭文件披露,该公司曾大量购入二手图书,通过拆封、裁剪、整批扫描的方式,将其转化为机器可读的PDF文件。这一过程耗资巨大,且图书在扫描完成后即被废弃。

值得注意的是,美国的“首次销售原则”为这种购买后自行处理的行为提供了一定的法律空间。但Anthropic的做法仍然引发了版权争议。早期,公司甚至考虑过使用盗版电子书,直到2024年因法律考虑才开始寻求更安全的替代方案。

在长达32页的判决书中,还披露了Anthropic雇佣Tom Turvey的细节。Turvey曾负责Google Books项目的合作事务,他的加入显然是为了复制谷歌曾被法院认定为合理使用的图书数字化模式。然而,尽管法官最终裁定Anthropic的扫描方式构成合理使用,理由包括图书的合法购买、扫描后的即刻销毁以及数字文件的内部使用,但早期的盗版行为仍然削弱了其合法性。

事实上,非破坏性扫描技术早已存在。例如,Internet Archive就开发出了一种可以保留原书的数字化手段。本月早些时候,OpenAI和微软也宣布与哈佛大学图书馆合作,计划使用近百万本公版书籍来训练AI,而这些书籍在被数字化的同时依旧得到了妥善保存。

相比之下,Anthropic的“破坏式扫描”不仅造成了资源的浪费,也引发了关于AI伦理和可持续性的讨论。随着AI技术的不断发展,如何在尊重版权、保护环境的前提下获取高质量的训练数据,成为了一个亟待解决的问题。

更多热门内容
“超级地球”与“迷你海王星”:看似相近实则不同,演化路径大揭秘
记者从中国科学院国家天文台获悉,基于中国科学院国家天文台负责运行的国家重大科技基础设施郭守敬望远镜(LAMOST)观测的大样本数据,并结合欧洲盖亚卫星以及开普勒太空望远镜的观测数据,南京大学谢基伟教授团队联合…

2026-06-13

中国科学家新发现:“超级地球”与“迷你海王星”演化路径大不同
中国科学院国家天文台6月12日发布消息说,基于其负责运行的国家重大科技基础设施郭守敬望远镜(LAMOST)巡天观测的大样本数据,中国科学家结合欧洲盖亚(Gaia)卫星以及开普勒太空望远镜的观测数据,最新研究…

2026-06-13

中国科学家发现新线索:银河系恒星年龄并非“越远越年轻” 而是“U”形分布
论文第一作者、云南大学中国西南天文研究所教授连建辉介绍称,研究团队发现,从银河系中心到距离中心约 3.6万光年的区域,恒星的平均年龄呈逐渐降低态势,即越往外围恒星越年轻;但到了 3.6 万光年之外的外围…

2026-06-13

中国科学家新发现:银河系恒星年龄并非单调变化 呈“U形”分布特征
新华社昆明6月12日电(记者王贤思、严勇)中国科学家最新发现,银河系的恒星年龄并不是如预期单调地从内向外变年轻,而是呈现出“U形”分布特征:先逐渐变年轻,随后又重新变老。连建辉说,我们今天在更外围看到的古老恒…

2026-06-13

“无人机+小飞人”助力带电消缺 成都供电为迎峰度夏筑牢安全防线
为保障电网安全稳定运行,本次作业全程采用“无人机+小飞人”新型带电作业模式,实现缺陷“无感消缺”。 据悉,今年以来,国网成都供电结合春季电网检修,在迎峰度夏前对输电线路进行拉网式隐患排查治理,按照“能带电、不…

2026-06-13