近日,根据人工智能内容检测器 Originality.AI 最新数据显示,全球前 1000 个网站中约有20%采取了措施,限制了爬虫机器人对其网络数据的访问,这些数据本用于AI服务的支持。
鉴于缺乏明确的法律或监管规范来管理AI对使用版权材料的访问,不论规模大小的网站都自行采取了行动。OpenAI在8月初推出了其GPTBot爬虫,并宣布所收集到的数据可能会用于改进未来的模型,同时承诺排除付费内容,并为网站提供了如何阻止该爬虫的指导。随后,包括《纽约时报》、路透社和CNN等知名新闻网站也开始采取了限制GPTBot的措施,而许多其他网站也纷纷效仿。
根据Originality.AI的数据,在全球前1000个最受欢迎的网站中,对ChatGPT bot的限制在8月22日的9.1%增加到了8月29日的12%。其中,亚马逊、Quora和Indeed等大型网站对ChatGPT bot的封锁幅度最大。数据表明,规模更大的网站更有可能已经对AI爬虫机器人采取了限制措施。
另一个定期收集某些AI服务所需Web数据的爬虫程序是Common Crawl Bot,在全球前1000个顶级网站上的屏蔽率为6.77%。
任何可以通过Web浏览器访问的页面都可以被爬虫程序”抓取”,它们类似于浏览器的运行方式,但将数据存储在数据库中而不是向用户显示。这是像Google等搜索引擎收集信息的方式。尽管网站所有者一直有能力发布指令,告知这些爬虫程序离开他们的网站,但合作完全是自愿性质,并且恶意操作者可以忽略这些指令。
谷歌和其他网络公司认为其数据爬虫工作属于合理使用范围,但许多出版商和知识产权持有人长期以来一直反对此做法,并且该公司因此面临了多起诉讼。随着大型语言模型和生成式AI的兴起,这个问题重新引起了关注,因为AI公司派遣自己的爬虫程序来收集数据以培训其模型并提供聊天机器人所需的素材。
自从Google和其他搜索引擎将用户引导至支持广告的网站后,一些出版商至少认为允许搜索爬虫程序进入其网站具有某种价值。然而,在AI时代,出版商更积极地采取措施限制爬虫程序进入其网站,因为暂时没有将其数据交给AI公司的好处。许多媒体公司目前正在与AI公司就以费用向其授权数据进行谈判,但这些谈判仍处于早期阶段。
在过去的20年中,一些媒体机构认为Google等搜索引擎已经夺走了他们的内容,对于OpenAI等快速商业化的AI服务持有敌意,并表示”我们不会再上当”。据《The Information》报道,OpenAI预计在未来一年内将带来超过10亿美元的收入。
新闻媒体公司正在努力找到在接受和抵制人工智能之间的平衡点。这一行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。但与此同时,将人工智能引入新闻编辑室的工作流程,也引发了一系列具有挑战性的道德问题。
如果过多的网络继续限制人工智能爬虫,那么这些爬虫程序的所有者可能会发现更难以改进和更新他们的人工智能产品,而且寻找高质量的数据也将变得更加困难。Originality.AI的发现显示,前1000个网站中GPTBot的封锁率每周增加约5%。