重视网站的robot.txt文件 / 网络研习社#94

Robot.txt文件一直没太留意,好像也不太重要。但最近发现好多的爬取记录,这才觉得这玩意好像还有那么回事。

robottxt.jpg
Robot.txt文件(来源:网络)

简介

Robots.txt 是一个位于网站根目录的文本文件,用于告诉搜索引擎抓取工具(如 Googlebot、Bingbot)哪些页面或资源可以被抓取,哪些不可以。它主要用于管理搜索引擎的抓取流量,避免服务器过载或保护敏感内容不被抓取。

唉,现在网站感觉都是上世纪的老东西啰!还有人在乎这东东吗?

规则和示例

先用Deepseek生成了示例,关键词:设计一个标准的robot协议,除了'/admin'和 '/login' 路径不能访问外,其它都可访问.

User-agent: 
Disallow: /admin
Disallow: /login
Allow: /

说明:

  1. User-agent: 表示规则适用于所有爬虫。
  2. Disallow: /adminDisallow: /login 明确禁止访问这两个路径。
  3. Allow: / 表示允许访问根目录下的所有其他内容(此条可省略,因为默认允许访问未禁止的路径,但显式写出更清晰)。

注意事项:

  • 路径区分大小写(取决于服务器配置)。
  • 某些恶意爬虫可能不遵守此协议。
  • 如需针对特定爬虫(如 Googlebot)设置不同规则,可单独添加 User-agent 区块。

将此文件放置在网站根目录(如 https://example.com/robots.txt)即可生效。

致敬还在坚持的站长们!