随着OpenAI的ChatGPT、微软的Bing Chat和谷歌Bard等生成式AI服务在取代传统搜索引擎的过程中日益普及,一些个人和企业开始对这些AI模型使用他们的网站数据表示担忧,他们不希望自己的网站内容被用于AI模型的训练。
为了解决这一问题,谷歌今天宣布了一种新方法,允许网站开发者自主选择是否允许其网站内容被Bard和Vertex AI服务访问,以及是否用于这些API模型的训练。
谷歌在一篇博客中介绍了Google-Extended,这是一种新的控制选项,网站开发者可以使用它来管理他们的网站是否支持Bard和Vertex AI。
目前,网站可以通过robots.txt文件来列出拒绝被爬虫访问的内容,而谷歌认为所有AI模型提供商都应该提供这种透明度和控制的方式。然而,随着AI应用的不断扩展,网站将面临管理多种用途数据的复杂性。谷歌表示将会尽快分享更多相关信息。
根据谷歌支持文档的显示,Google-Extended并没有单独的HTTP请求用户代理(UA)字符串,而是通过现有的Google UA字符串进行抓取,而robots.txt用户代理令牌则可用于进行控制。
除了今天的声明之外,谷歌还表示,他们将继续“探索其他可供网站选择和控制的机器可读方法”。他们还提供了一个链接,供网站注册邮件列表,以便接收关于谷歌改进网站控制方式的更新信息。这一举措有望为网站所有者提供更多掌握AI数据使用权的自主权力。