如果您对编程有一定了解,您就会知道每一行代码都对应一个机器操作。对于 robots 文件, 每个命令行对应于机器不应该执行的操作。写入 robots.txt 文件最重要的命令是 Disallow,它指示不应读取哪些内容。
显然,对于这种类型的命令,您必须添加允许您为禁止块创建异常的命令,即允许。现在我们将逐一分析,以免造成混乱。
禁止命令
正如我告诉您的,您必须以相反的方式思考,因此在 robots.txt 文件中您必须说明蜘蛛不能读取的内容。语法是这样的:
显然,您必须在冒号后面插入不能读取 泰国 whatsapp 号码数据 的内容。如果你就这样保留它,你就可以毫不犹豫地阅读整个网站。
使用此命令,您可以告诉爬虫不要读取任何内容,因此该网站将不会包含在搜索引擎结果中。其他选项有:
这是拒绝访问站点上特定目录的有用命令。再说一遍:
如果您不想读取特定文件,则需要编写此命令。
这些是“禁止”的主要命令,在此链接中您将找到可能对其他特定情况有用的其他命令。报告链接、目录等时请注意大小写字母。因为如果您编写l是有区别的:它们是两个不同的资源。
例外,允许命令
在 robots.txt 文件中,您可以使用allow命令添加禁止限制的例外。 allowed的语法与disallow相同,例如:
Allow:
显然,冒号后面的资源将不必受到先前命令的限制。
现在我将编写一个像这样的robots.txt文件,以便更清晰: