前端

`robots.txt`是一个存放在网站根目录中的文件，它的作用是告诉网络爬虫哪些页面可以被抓取，哪些不可以。这个文件主要用来阻止搜索引擎对网站中某些部分的访问，但它不是一个强制性的措施，而是遵循“爬虫协议”（也称为“robots exclusion protocol”）的搜索引擎的自愿行为。

在`robots.txt`文件中，可以指定“User-agent”来区分不同的爬虫；使用“Disallow”指令来禁止访问特定的网站内容；使用“Allow”指令来允许访问特定的内容（尽管这不是标准中必须的指令）；还可以指定“Sitemap”位置来帮助搜索引擎更好地理解网站结构。

例如，以下是一个简单的`robots.txt`文件示例：

```
User-agent: *
Disallow: /private/
Disallow: /tmp/
Sitemap: http://example.com/sitemap.xml
```

这个文件指示所有的用户代理（User-agent），不允许访问`/private/`和`/tmp/`目录，同时提供了网站地图的位置。

什么是robot.txt？