为什么你或其他人应该阻止人工智能机器人?

Explore workouts, and achieving AB Data
Post Reply
Joywtome231
Posts: 615
Joined: Sun Dec 22, 2024 3:58 am

为什么你或其他人应该阻止人工智能机器人?

Post by Joywtome231 »

图表显示了网站阻止人工智能机器人的子域名分布情况
“赢家”——如果我们可以这样称呼的话——仍然是 GPTBot,亚军仍然是 CCBot。然而,百分比现在明显更大。16% 是否进入了我在上一篇文章中谈到的“集体行动”领域?这当然不是一件小事。

阻止这些机器人的结果百分比远高于子域的百分比,这一事实表明,排名良好且包含大量关键词的子域被阻止的可能性不成比例。这与我在本文简介中提到的“杠杆”原理一致。如果我们按域权限进行细分,我们可以看到类似的情况:

图表显示了按域名权限阻止 AI 机器人的网站
高 DA 网站更有可能阻止这些机器人。如果您想知道高 DA 网站阻止普通 瑞士手机号码数据 的旧 Googlebot 的原因,那主要是政府或银行部门的网站,这些网站显然会接收到如此强烈的信号,以至于 Google 认为有必要对它们进行排名,尽管无法抓取内容。

我在上一篇文章中介绍了一些可能存在的争论,但事实是,从目前这些模型带来的流量来看,短期内可能不会产生太大影响。如果你在撰写本文时查看 Moz 的 robots.txt 文件,你会看到我们阻止 GPTBot 进入我们的学习中心和博客 - 这是一个折衷的立场,但到目前为止我们还没有真正看到它带来任何好处或坏处,我们也不会期望在短期内看到。我当然不认为与阻止 Googlebot 的比较是公平的 - LLM 主要是一种内容生成工具,而不是主要的流量推荐工具。事实上,谷歌已经表示,即使是他们的 AI 概览也不会受到 Google-Extended 的影响,而是受到常规 Googlebot 的影响。同样,在撰写本文时,OpenAI 刚刚宣布了他们的直接谷歌竞争对手“SearchGPT”,并证实,与谷歌一样,它正在使用单独的用户代理来抓取其他生成 AI 工具 - 在这种情况下是“OAI-SearchBot”。

我在那篇文章中没有涉及的是大型出版商的情况。如果你是一家大型出版商,并且你确实认为自己有影响力,并且可能能够达成协议,那么你可能希望开创一个先例——除非他们达成正式协议,否则这些工具不享有免费访问权。例如,The Verge 的母公司 Vox Media 公开表示,他们在最终达成协议之前会阻止访问。theverge.com 上的 robots.txt 文件仍然明确阻止大多数其他 AI 机器人,但不再阻止 GPTbot。
Post Reply