根据人工智能内容检查器和抄袭检查服务Originality.ai的最新分析,目前全球排名前100的网站中,至少有26个网站(而在排名前1000的网站中,这一数字达到了242个)已经采取措施屏蔽了OpenAI于8月7日推出的网络爬虫GPTBot。
与上个月相比,这一数字增加了250%。上个月,仅有69家排名前1000的网站选择屏蔽GPTBot。对于许多SEO人员来说,是否屏蔽ChatGPT一直是一个关键问题,因为ChatGPT不会引用或链接到其内容来源。尽管这一行为允许搜索引擎爬取网站内容,但也存在潜在好处,即通过直接链接和引用获得流量。
显然,越来越多的知名网站决定屏蔽GPTBot,可能是因为他们不希望OpenAI在未提供任何形式的补偿情况下使用他们的数据来训练模型。12个热门网站已经采取了这一举措,其中大多数是新闻和信息发布网站。不过有趣的是,上个月屏蔽GPTBot的Foursquare目前已经取消了这一屏蔽。
至于CCbot(Common Crawl的网络爬虫),仍然有少数网站(130个)选择屏蔽它。值得注意的是,Common Crawl为OpenAI、Google和其他公司提供了部分训练数据。
此外,在这次的分析中发现,1000个网站中有67个robots.txt文件未被识别或检查,这也解释了为什么文章一开始提到了“至少”的情况。这一趋势表明,网站对于数据隐私和内容控制的关注度正在逐渐上升,SEO领域将面临新的挑战。