为什么你或其他人应该阻止人工智能机器人？

Joywtome231 · Post by **Joywtome231** » Wed Feb 19, 2025 3:26 pm

图表显示了网站阻止人工智能机器人的子域名分布情况
“赢家”——如果我们可以这样称呼的话——仍然是 GPTBot，亚军仍然是 CCBot。然而，百分比现在明显更大。16% 是否进入了我在上一篇文章中谈到的“集体行动”领域？这当然不是一件小事。

阻止这些机器人的结果百分比远高于子域的百分比，这一事实表明，排名良好且包含大量关键词的子域被阻止的可能性不成比例。这与我在本文简介中提到的“杠杆”原理一致。如果我们按域权限进行细分，我们可以看到类似的情况：

图表显示了按域名权限阻止 AI 机器人的网站
高 DA 网站更有可能阻止这些机器人。如果您想知道高 DA 网站阻止普通瑞士手机号码数据的旧 Googlebot 的原因，那主要是政府或银行部门的网站，这些网站显然会接收到如此强烈的信号，以至于 Google 认为有必要对它们进行排名，尽管无法抓取内容。

我在上一篇文章中介绍了一些可能存在的争论，但事实是，从目前这些模型带来的流量来看，短期内可能不会产生太大影响。如果你在撰写本文时查看 Moz 的 robots.txt 文件，你会看到我们阻止 GPTBot 进入我们的学习中心和博客 - 这是一个折衷的立场，但到目前为止我们还没有真正看到它带来任何好处或坏处，我们也不会期望在短期内看到。我当然不认为与阻止 Googlebot 的比较是公平的 - LLM 主要是一种内容生成工具，而不是主要的流量推荐工具。事实上，谷歌已经表示，即使是他们的 AI 概览也不会受到 Google-Extended 的影响，而是受到常规 Googlebot 的影响。同样，在撰写本文时，OpenAI 刚刚宣布了他们的直接谷歌竞争对手“SearchGPT”，并证实，与谷歌一样，它正在使用单独的用户代理来抓取其他生成 AI 工具 - 在这种情况下是“OAI-SearchBot”。

我在那篇文章中没有涉及的是大型出版商的情况。如果你是一家大型出版商，并且你确实认为自己有影响力，并且可能能够达成协议，那么你可能希望开创一个先例——除非他们达成正式协议，否则这些工具不享有免费访问权。例如，The Verge 的母公司 Vox Media 公开表示，他们在最终达成协议之前会阻止访问。theverge.com 上的 robots.txt 文件仍然明确阻止大多数其他 AI 机器人，但不再阻止 GPTbot。