爬虫访问规则配置
生成的 robots.txt 内容

Robots.txt 协议指南

什么是 Robots.txt?

  • 定义:robots.txt 是一种存放于网站根目录下的 ASCII 编码文本文件。它是搜索引擎蜘蛛(Spider)访问网站时要查看的第一个文件。
  • 作用:它相当于网站和爬虫之间的一份“君子协议”。告诉搜索引擎哪些目录是可以抓取的,哪些目录是禁止抓取的,从而保护网站隐私、节省服务器带宽。

核心语法规则

  • User-agent: 定义该规则适用于哪个搜索引擎爬虫。* 代表所有爬虫。
  • Disallow: 告诉爬虫禁止抓取指定的目录或文件。例如 Disallow: /admin/ 表示禁止抓取 admin 目录下的所有内容。
  • Allow: 告诉爬虫允许抓取的目录。通常与 Disallow 配合使用,用于在被限制的大目录中“开特例”允许抓取某个子目录。
  • Crawl-delay: 限制爬虫抓取的时间间隔(秒),防止爬虫过快抓取导致服务器宕机(注:部分搜索引擎如 Google 现已不再严格遵守该指令,转而在其站长平台中配置)。
  • Sitemap: 告诉爬虫网站的 Sitemap XML 文件地址,帮助搜索引擎更高效地发现网站所有链接。

注意事项

  • Robots 协议只是一种“防君子不防小人”的建议性协议,恶意的爬虫程序完全可以无视它。因此,对于真正的敏感机密数据,必须在服务器端做好权限校验。
  • 该文件必须放置在您网站的根目录下,例如:https://www.yourdomain.com/robots.txt