爬虫访问规则配置
生成的 robots.txt 内容
Robots.txt 协议指南
什么是 Robots.txt?
- 定义:
robots.txt是一种存放于网站根目录下的 ASCII 编码文本文件。它是搜索引擎蜘蛛(Spider)访问网站时要查看的第一个文件。 - 作用:它相当于网站和爬虫之间的一份“君子协议”。告诉搜索引擎哪些目录是可以抓取的,哪些目录是禁止抓取的,从而保护网站隐私、节省服务器带宽。
核心语法规则
User-agent:定义该规则适用于哪个搜索引擎爬虫。*代表所有爬虫。Disallow:告诉爬虫禁止抓取指定的目录或文件。例如Disallow: /admin/表示禁止抓取 admin 目录下的所有内容。Allow:告诉爬虫允许抓取的目录。通常与 Disallow 配合使用,用于在被限制的大目录中“开特例”允许抓取某个子目录。Crawl-delay:限制爬虫抓取的时间间隔(秒),防止爬虫过快抓取导致服务器宕机(注:部分搜索引擎如 Google 现已不再严格遵守该指令,转而在其站长平台中配置)。Sitemap:告诉爬虫网站的 Sitemap XML 文件地址,帮助搜索引擎更高效地发现网站所有链接。
注意事项
- Robots 协议只是一种“防君子不防小人”的建议性协议,恶意的爬虫程序完全可以无视它。因此,对于真正的敏感机密数据,必须在服务器端做好权限校验。
- 该文件必须放置在您网站的根目录下,例如:
https://www.yourdomain.com/robots.txt。
