本月初,代表全美2200多家新闻机构的新闻/媒体联盟(News/Media Alliance)发起“支持负责任AI”运动,呼吁监管机构强制科技巨头为AI产品使用的内容付费。但就在美国媒体抱团保卫自己的知识产权时,单打独斗的维基百科则宣布向AI厂商“投降”。
运营维基百科的维基媒体基金会(Wikimedia)近日宣布,将通过与谷歌旗下的数据科学社区平台Kaggle合作,发布一份专门优化用于人工智能模型训练的数据集。这份公开的数据集截止至2025年4月15日,内容包括研究摘要、简短描述、图像连接、信息框数据和文章章节,但不包含参考文件或音频文件等非书面元素,首次发布的数据集将提供英语和法语版本。
好端端的维基百科为什么要在谷歌的Kaggle上,公开一个规模如此庞大的数据集呢?答案其实很简单,因为维基媒体基金会无法忍受AI厂商的爬虫。
本月初,维基媒体基金会发布官方博客文章透露,自2024年1月以来,维基共享资源(Wikimedia Commons)上所存放的1.44亿个图像、视频或其他文件带宽增长50%,但这些流量并非来自人类用户,而是来自AI厂商的爬虫。
为了管理超过4500万个媒体文件,维基媒体基金会采取的是分布式存储,也就是数据被切割成多个碎片,然后根据一定的策略分配到不同的存储节点上,使得数据可以就近存储,从而提高访问速度和效率。
根据维基媒体基金会的介绍,当某个内容被多次请求时,他们就会将内容缓存到离用户最近的数据中心,倘若某个内容很久都未被请求,那么就会存储在核心数据中心。如此一来,在请求冷门内容时,相关请求必须遍历从靠近用户的数据中心到核心数据中心的所有路径,再将其存储在区域数据中心,所以就会带来更大的带宽消耗。
可问题在于,维基媒体基金会设计的分布式存储是为人类用户服务,而不是为了应对AI厂商的爬虫,这就导致了他们面临越来越高的成本压力。毕竟人类用户往往会访问特定或相似主题的内容,而AI厂商的爬虫为了获取更多数据,通常会囫囵吞枣式地抓取每一个内容,所以就意味着维基媒体基金会认为的冷门内容也会被频繁访问。
维基媒体基金会方面发现,爬虫浏览的网页数量仅占全体访客的35%,但访问其核心数据中心的流量却高达65%。作为一个非营利性机构,维基媒体基金会的收入主要来源于捐赠,所以他们也不可能用有限的资金去购买更多带宽。
与谷歌Kaggle合作发布模型训练的数据集,这就是维基媒体基金会为降低30%的爬虫使用带宽的方式。该机构表示,Kaggle托管的数据集“在设计时充分考虑了机器学习的工作流程”,使得AI开发者能够更轻松地访问机器可读的数据,以进行建模、微调、基准测试、对齐和分析。
由于维基媒体基金会的非营利属性,就意味着他们不能将自己拥有的数据出售,所以在AI厂商使用爬虫抓取非授权内容尚处于灰色地带时,能做的就只有将数据这个“烫手的山芋”扔出去,从而节省平台的带宽和服务器资源。为了让AI厂商的爬虫去抓取Kaggle上的数据,维基媒体基金会设计的数据集甚至是JSON格式的。
据悉,JSON格式是一种轻量化的数据交换格式,也是目前各种应用程序之间数据交换和通信的主流格式,其一大特点就是易于机器解析。相比txt、jpg、mp4等为人类服务的格式,JSON格式主要是为机器服务。这样一来,相比抓取或解析维基百科上的原始文本、图像,Kaggle上结构良好的JSON格式的维基百科相关内容显然就更具吸引力。
从某种意义上来说,这次维基媒体基金会被迫与谷歌Kaggle合作,凸显了内容平台的反爬虫策略在AI时代已经落伍。因为在AI厂商高速迭代的爬虫技术面前,内容平台的反爬虫策略还做不到完美区隔人类与机器。
君不见在去年5月末,知乎网页端出现了非登录用户无法查看全文的情况。彼时外界普遍认为,知乎采取这一限制措施是为了反爬虫,防止AI厂商使用爬虫抓取其高质量内容来训练AI模型。然而仅仅过去了半年时间,知乎就放开限制,用户无需登录即可直接浏览完整内容。
其实知乎“认怂”的原因也不难猜测,毕竟他们的商业模式就是基于更多的人类用户使用,非登录用户不可查看全文会极大影响获客,进而让知乎的商业价值受损。用户体验与反AI爬虫不可兼得,这也是当下全球所有内容平台共同面对的难题。
如今,非营利性的维基媒体基金会选择逃避,要赚钱的美国新闻媒体,则是在尝试让AI厂商为他们的内容付费。