为训大模型不择手段的AI公司,打破了这个古老的互联网协议
2024-02-21
更新时间:2024-02-21 19:56:21作者:无忧百科
综合报道
12min read
为训大模型不择手段的AI公司,打破了这个古老的互联网协议
郑玥2024/02/21
摘要
学好不容易,学坏一出溜。
作者: David Pierc
文章来源:TheVerge
文章链接:https://www.theverge.com/24067997/robots-txt-ai-text-file-web-crawlers-spiders
编译:郑玥
编辑:靖宇
大模型的横空出世,打破了 30 年来互联网的运行规则。
代码版「互联网小宪法」robots.txt 开始失效了。robots.txt 是一个文本文件,每个网站都用它来说明自己是否愿意被爬虫抓取。30 年来,一直是它,让互联网不至于在混乱中运行。
不过这个规则能长久运行其实纯靠一个人性逻辑——你让搜索引擎抓取你的网站,同时你会获得搜索引擎的流量回报。这也是几位互联网先驱者达成的握手协议,为了造福互联网上的所有人。
这种既没有写入法律,也没有权威约束,稍显天真的规则在运行了 30 年后,终于出现了问题——越来越多的 AI 公司用爬虫抓取你的网站数据,提取数据集,训练大模型和相关产品,但他们并不像搜索引擎那样回馈以流量,甚至根本不承认有你存在,你的数据就像肉包子打狗一样有去无回。
很多数据拥有者非常愤怒,新闻出版商等数据拥有者不断地发声,封锁 AI 爬虫,反抗自己的数字资产被无偿使用。不过如谷歌和 OpenAI 这样的 AI 推动者,也在试图找到更好的规则,毕竟只有各方获益才能持续发展。
robots.txt,一个简单有效的协议
robots.txt,通常位于「yourwebsite.com/robots.txt」。任何一个运营网站的人,无论他的网站是大是小、是烹饪博客还是跨国公司,都可以通过这个文件来告诉谁可以进入网站,而谁不可以。
「哪些搜索引擎可以索引你的网站?哪些文件项目可以提取并保存你的网页版本?竞争对手能否保存你的网页?……」这些都由你决定,并通过这个文件作出声明,让整个互联网看到。
不过现在,AI 已经打破了这个平衡:网上的公司正在利用你的网站数据,提取大量训练数据集,建立大模型和相关产品,这里面可能根本不承认有你存在。
在互联网发展的早期,机器人有很多名字:蜘蛛、爬虫、蠕虫、网蚁、网络爬虫。大多数时候,这些名字都出于好意。通常抓取数据是开发人员为了给一个新网站建立目录,以确保自己的网站正常运行,或者建立一个研究数据库——这是 1993 年左右的事情了,当时搜索引擎还没有普及,电脑硬盘里还装不下大部分互联网内容。
robots.text 的真正作用|图片来源:KeyCDN
那时唯一的问题是流量:对于网站浏览者或所有者来说,访问互联网都又慢又贵。如果你像大多数人一样,在自己的电脑上管理网站,或用家庭互联网,但凡有几个机器人过度热衷于下载网页,就会导致网站崩溃,流量账单激增。
1994 年的几个月里,一位名叫马特恩·科斯特(Martijn Koster)的软件工程师,与其他一群网站管理员一起,提出了一个名为「机器人修复协议」的解决方案。该方案非常简单:要求网站开发人员在其域名中添加一个纯文本文件,指定哪些机器人不得浏览其网站,或者列出对所有机器人禁止访问的网页。
在这个时期,你甚至可以维护一个包含每个机器人的清单——科斯特这些人就是这么做的。对于机器人制造者来说就更简单了:一切按照文本文件的规定来。
从一开始科斯特就明确表示,他并不讨厌机器人,也不打算消灭它们。1994 年初,有一个名为 WWW-Talk,包括蒂姆·伯纳斯·李(Tim Berners-Lee)和马克·安德森(Marc Andreessen)等早期互联网先驱的邮件列表,科斯特给这个列表发送的第一封电子邮件中说:「网络中有少数会造成运行问题和令人不快的情况,机器人是其中之一。但与此同时,它们确实提供了有用的信息。」
科斯特说,不要争论机器人是好是坏——因为这并不重要,它们就在这里,不会消失,他只是想设计一种系统,「将问题最小化,将利益最大化」。
到那年夏天,他的建议已经成为一项标准——虽然不是官方标准,但已被普遍接受。那年 6 月,科斯特再次向 WWW-Talk 小组更新提案,他写道,「这是一种通过在服务器上提供一个简单的文本文件,引导机器人远离网络服务器 URL 空间中某些区域的方法。如果你有大型文件、带有大量 URL 子目录的 CGI 脚本、临时信息,或者你根本不想为机器人提供服务,那么这种方法就特别方便。」
他建立了一个特定主题的邮件列表,其成员就这些文本文件的一些基本语法和结构达成一致,把文件名从 RobotsNotWanted.txt 改为简单的 robots.txt,几乎所有成员都支持它。在接下来 30 年的大部分时间里,这种方式都非常有效。
接着,硬盘不再适合互联网,机器人的功能也随之变得更强大更细分。谷歌使用机器人来提取和索引其整个网络的搜索引擎,该搜索引擎成为网络的接口,每年已为该公司带来了数十亿美元的收入。必应的爬虫也如此,微软将其数据库授权给其他搜索引擎和公司。
互联网档案馆(非营利组织,定期收录并永久保存全球网站上可以抓取的信息)使用爬虫来存储网页,以供子孙后代使用。亚马逊的爬虫在网络上寻找产品信息,根据最近的一个反垄断诉讼,该公司利用这些信息来处罚那些在亚马逊网站外提供更低价交易的卖家。
搜索爬虫对网站来说「有得有失」,AI 呢?
但现在,像 OpenAI 这样的人工智能公司提取网络数据,是为了训练大语言模型,这些模型可能会再次从根本上改变我们访问和共享信息的方式。
现代互联网通过下载、存储、组织和查询的能力,为任何一家公司或任何一位开发人员都提供了几乎世界上所有累积的知识。在过去的一年左右的时间里,ChatGPT 等人工智能产品的崛起及其背后的大型语言模型,让高质量的训练数据成为互联网上最有价值的商品。
这使得各大互联网必须重新考虑其服务器上数据的价值,并重新思考谁可以访问哪些数据。过度放任会让你的网站失去所有价值;过度限制则会让你的网站成为隐形网站。你正在面对新的公司、新的合作伙伴和新的利害关系,必须不断作出选择。
互联网机器人有几种类型。你可以做一个人畜无害的机器人,让你所有的网页链接到其他有效的网页上;你也可以让一个糙汉的机器人,在网上到处搜集可以找到的每个电子邮件地址和电话号码。但最常见的也是目前最具争议的,是最简单的网络爬虫,它的工作就是尽可能多地查找和下载互联网上的内容。
网络爬虫的运行一般都很简单。它们从一个网站开始,例如 cnn.com、wikipedia.org 或 health.gov。爬虫下载第一页并将其存放在某个位置,然后自动点击该页面上的每个链接,下载这些链接,点击上面的所有链接,再点击、下载……。只要有足够的时间和足够的计算资源,爬虫最终就能找到并下载所需的上亿个网页。
2019 年,谷歌约有超过 5 亿个网站拥有 robots.txt 页面,来规定是否允许这些爬虫访问以及允许访问哪些内容。这些页面的结构通常大致相同:命名一个「用户代理」(User-agent),即爬虫向服务器表明身份时使用的名称。
谷歌的代理是 Googlebot;亚马逊的代理是 Amazonbot;必应的代理是 Bingbot;OpenAI 的代理是 GPTBot。Pinterest、LinkedIn、Twitter 以及许多其他网站和服务都有自己的机器人,但并非所有机器人都会在每个页面上被提及。
谷歌对Googlebot的解释|图片来源:Google
维基百科和 Facebook 这两个平台,被机器人接管得最为彻底。在 robots.txt 页面下面,推出了不允许特定代理访问的网站部分或页面,以及允许访问的特定例外情况。如果这一行只写着「禁止:/」,则完全不欢迎爬虫。
现在对于大多数人来说,「服务器过载」已经不是什么需要考虑的问题了。谷歌搜索发起者之一约翰·穆勒(John Mueller)说:「现在,这通常与网站资源关系不大,更多与个人喜好有关,也就是你想要爬取和索引什么就有什么。」
大多数网站所有者需要回答的最大问题就是,是否允许被谷歌机器人抓取。这个问题的取舍相当简单:如果谷歌可以抓取你的页面,它就可以将其编入索引并显示在搜索结果中。任何您希望 Google 抓取的页面,Googlebot 都需要看到。(当然,Google 在哪里展示的你网站,在何处折叠页面,这是另一个问题。)前面的问题就在于,你是否愿意让 Google 占用你的带宽并下载你网站,以换取被搜索带来的可见性。
对于大多数网站来说,这是很容易做的决定。Medium 创始人托尼·斯塔布宾(Tony Stubblebine)说:「谷歌是我们最重要的爬虫。谷歌下载 Medium 的所有网页,作为交换,我们获得了大量的流量,这是双赢。每个人都这么认为,这就是谷歌与整个互联网达成的协议,在向其他网站传输流量的同时,他们还在搜索结果中出售广告。」
从各个方面来看,谷歌都是 robots.txt 的好公民。谷歌的穆勒说,「几乎所有知名的搜索引擎都遵守了这一规定。」他们很高兴能够抓取网页,也没有因此惹恼别人,只会让大家的生活变得更轻松。
数据被用来训练 AI,是肉包子打狗?
在过去一年左右的时间里,人工智能的兴起颠覆了这种方式。对于许多出版商和平台来说,他们的数据被抓取训练,感觉不像是交易,更像是被偷窃。
斯图布尔宾说:「我们很快就发现,人工智能公司不仅没有进行价值交换,我们也没有得到任何回报,完全是零。」去年秋天,当斯塔伯宾宣布将封锁 AI 爬虫时,他写道:「AI公司从作家那里攫取了价值,以便向互联网读者发送垃圾邮件」。
过去一年,媒体行业的大多数人都达成斯塔布宾的观点。去年秋天,BBC 国家总监罗德里·塔尔凡·戴维斯 (Rhodri Talfan Davies) 写道:「我们认为,目前这种未经允许就『搜刮』BBC 数据以训练大模型的做法不符合公众利益,」他宣布 BBC 也将封锁 OpenAI 的爬虫。
《纽约时报》也封锁了 GPTBot,几个月后对 OpenAI 提起诉讼,指控 OpenAI 的模型是通过使用《纽约时报》数百万篇受版权保护的新闻文章、深度调查、观点文章、评论、操作指南等建立起来的。路透社新闻应用编辑本·威尔士(Ben Welsh)的一项研究发现,在 1156 家公开出版商中,有 606 家在其 robots.txt 文件中封锁了 GPTBot。
不仅仅是出版商,亚马逊、Facebook、Pinterest、WikiHow、WebMD 和许多其他平台都明确禁止 GPTBot 访问其部分或全部网站。在这些 robots.txt 页面中,OpenAI 的 GPTBot 是唯一一个被明确完全禁止的爬虫,但也有很多其他人工智能专用机器人开始爬取网络,比如 Anthropic 的 anthropic-ai 和谷歌的新版 Google-Extended。
根据 Originality.AI 去年秋季进行的一项研究,网络上排名前 1000 位的网站有 306 个封锁了 GPTBot,但只有 85 个封锁了 Google-Extend,28 个封锁了 anthropic-ai。
也有一些爬虫同时用于网络搜索和 AI 训练。由 Common Crawl 组织运营的 CCBot 作为搜索引擎抓取网络,但其数据也被 OpenAI、谷歌等公司用于训练模型。微软的 Bingbot 既是搜索爬虫,也是 AI 爬虫。而这些仅仅是表明自己身份的爬虫——还有许多爬虫试图「阴暗地」运行,因此很难在无数的网络流量中封锁它们,甚至都找不到它们。
在很大程度上,GPTBot 之所以成为 robots.txt 中的最主要被封锁对象,是 OpenAI 自己允许的。OpenAI 发布推广了一个关于如何封锁 GPTBot 的页面,还建立了自己的爬虫,以便在每次接近各个网站时候,大声嚷嚷是谁来了。
当然,OpenAI 是在制作出如此强大的底层模型之后才做这事的,这时候它都已经成为了技术生态系统的重要组成部分。
OpenAI 的部分安全性声明|图片来源: OpenAI
但 OpenAI 的首席战略官 杰森·权(Jason Kwon)说,这正是问题的关键所在,他说,「我们是生态系统中的一个参与者。如果你想以开放的方式参与这个生态系统,那么这是每个人都感兴趣的。」他说,如果没有交易,网络就会开始收缩、关闭——这对 OpenAI 和每个人来说都是不利的,「我们做这一切都是为了让网络保持开放」。
在默认情况下,《机器人修复协议》一直是被允许的。因为就像科斯特 30 年前所做的那样,它相信大多数机器人都是好的,都是由好人制造的。总的来说,这个思想也是正确的。「我认为互联网从根本上说是一种社会生物,」OpenAI 的杰森·权说,「这种握手言和方式已经持续了几十年,并且很有效。」他说,OpenAI 在遵守这一协议方面的作用包括:保持 ChatGPT 对大多数用户免费(从而实现价值反哺),并尊重机器人的规则。
阻止 AI 爬虫,是对抗未来吗?
但是,robots.txt 并不是一份法律文件,在它诞生 30 年后的今天,仍然依赖于所有相关方的善意。任何爬虫都可以无视 robots.txt,用不用担心受到影响。(网络抓取问题也有法律先例,但很复杂,且主要是在允许抓取的情况下,而不是禁止情况)。
例如,互联网档案馆在 2017 年就宣布不再遵守 robots.txt 的规则。互联网档案馆 Wayback Machine 主任马克·格雷厄姆(Mark Graham)当时写道:「随着时间的推移,我们发现,为了搜索引擎而建的 robots.txt 文件并不一定符合我们的目的。」
随着人工智能公司的不断增加,他们的爬虫也越来越肆无忌惮,任何想「事不关己高高挂起」或坐等人工智能占领世界的人,都将面临着一场无休止的「打地鼠」游戏。
人们需要尽力阻止每个爬虫(如果可能的话)的同时,还要考虑一个人后果——如果真的像谷歌等公司预测的那样,AI 是搜索的未来,那么阻止 AI 爬虫可能是短期的胜利,长远的灾难。
阻止和不阻止 AI 爬虫的两方都有人认为,需要更好、更强、更严格的工具来管理爬虫。因为事关的利益太大,而且有太多不受监管的例子出现,毕竟不能指望每个人都自觉遵守规则。2019 年,一篇关于网络爬虫合法性的论文中写道:「虽然许多人在使用网络爬虫时有一些自我管理规则,但整体规则过于薄弱,且追责困难。」
一些出版商希望有新的规则,可以对抓取的内容和用途进行更准确的控制,而不是 像 robots.txt 一样一刀切,只有「是」或「否」。几年前,谷歌曾努力将机器人排除协议作为正式的官方标准,谷歌也曾以 robots.txt 为旧标准、太多网站不重视它,力图不再强调 robots.txt。
谷歌 robots.txt 示例|图片来源:Google
谷歌信任副总裁丹尼尔·罗曼(Danielle Romain)2023 年写道:「现有的网络发布者控制规则是在新的 AI 和研究案例之前开发的。现在是时候为网络和 AI 社区,重新探索机器读取方式,以供网络出版商选择。」
即使在训练大模型上,AI 公司面临着很多监管和法律问题,但大模型仍在快速进步,似乎每天都有新公司成立。现在不论大小的网站都面临着一个抉择:是屈从于人工智能革命,还是坚守选择阵地进行对抗。对于那些屈服的网站来说,他们最有力的说辞,便是沿用三十年的 robots.txt,这个由一些最早最乐观的互联网忠实信徒们达成的协议。他们相信,互联网是好的,其中都是希望互联网变好的人。
在那个世界,用文本文件解释你的愿望就足够了。现在,随着 AI 重塑互联网的文化和经济,一个不起眼的纯文本文件开始有点过时了。
AI爬虫数据