ITBEAR科技资讯
网站首页 科技资讯 财经资讯 分享好友

AI爬虫“狂啃”维基媒体资源,运营开支压力山大?

时间:2025-04-03 16:26:44来源:ITBEAR编辑:快讯团队

近期,维基媒体基金会,这一运营着全球知名在线百科全书维基百科的非营利组织,透露了一项令人关切的运营挑战。该基金会在一篇博文中指出,专为AI训练数据集抓取资源的网络爬虫活动正对其造成前所未有的运营开支压力。

维基百科的关联项目——维基共享资源,作为一个庞大的多媒体资料库,长期以来吸引着各类用户。然而,自2024年初以来,从该平台下载多媒体内容的带宽使用量激增了50%,这一增长主要由自动化程序驱动,而非传统的人类用户行为。

维基媒体基金会以往能够有效应对突发事件引发的人类用户流量高峰,但AI时代网络爬虫活动的频繁加剧,正逐渐侵蚀其系统冗余,迫使基金会将宝贵的时间和资源投入到应对非人类流量上。这不仅影响了用户体验,也增加了运营成本。

基金会的数据存储策略是,低频内容存放在核心数据中心,而高频内容则在更靠近用户的数据中心备份。然而,网络爬虫的“遍历式”查询模式导致大量流量涌向核心数据中心,从而推高了流量成本。据统计,尽管机器人浏览量仅占总体的35%,但它们却消耗了核心数据中心65%的流量资源。

更令人担忧的是,这些自动爬虫不仅访问了公开资源,甚至还试图访问维基媒体基金会开发环境的关键系统,如代码审查平台和错误跟踪器,这进一步加剧了安全风险和运营负担。

维基媒体基金会强调,尽管其提供的所有内容是免费的,但维护这些内容的基础设施并非无成本。基金会呼吁建立一个负责任、可持续的基础设施使用规范,以避免“公地悲剧”的重演,即公共资源因过度使用而遭受破坏。

面对这一挑战,维基媒体基金会正积极寻求解决方案,以确保维基百科及其姊妹项目的持续健康发展。同时,该基金会也呼吁社会各界关注并支持其工作,共同维护这一宝贵的全球知识共享平台。

为了应对日益增长的自动化访问需求,维基媒体基金会也在探索技术创新,如优化数据存储策略、提升系统冗余度以及加强安全防护措施等,以期在保障用户体验的同时,有效控制运营成本。

更多热门内容