robots.txt
是一个存放在网站根目录中的文件,它的作用是告诉网络爬虫哪些页面可以被抓取,哪些不可以。这个文件主要用来阻止搜索引擎对网站中某些部分的访问,但它不是一个强制性的措施,而是遵循“爬虫协议”(也称为“robots exclusion protocol”)的搜索引擎的自愿行为。
在robots.txt
文件中,可以指定“User-agent”来区分不同的爬虫;使用“Disallow”指令来禁止访问特定的网站内容;使用“Allow”指令来允许访问特定的内容(尽管这不是标准中必须的指令);还可以指定“Sitemap”位置来帮助搜索引擎更好地理解网站结构。
例如,以下是一个简单的robots.txt
文件示例:
shellUser-agent: * Disallow: /private/ Disallow: /tmp/ Sitemap: http://example.com/sitemap.xml
这个文件指示所有的用户代理(User-agent),不允许访问/private/
和/tmp/
目录,同时提供了网站地图的位置。