使用 `wget`来下载网站上的所有文件（但不包括HTML文件）可以通过一些特定的参数设置来实现。下面我会详细解释一种常用的方法及步骤。

首先，`wget`是一个非常强大的命令行工具，它支持HTTP、HTTPS和FTP协议，可以用来下载文件。如果我们想要下载所有非HTML的文件，我们可以使用 `wget`的排除模式的功能。

具体的命令如下：

```bash
wget -r -l inf -A pdf,jpg,png,mp3 -nd -np -R html,htm http://example.com
```

这里我使用了几个参数：

- `-r`：递归下载，意味着 `wget`会从指定的URL开始，递归地下载所有资源。
- `-l inf`：递归的深度为无限。
- `-A`：接受列表，这里我指定了 `pdf,jpg,png,mp3`，意味着只下载这些指定的文件类型。
- `-nd`：不创建目录，所有下载的文件都会直接存储到当前目录。
- `-np`：不遵循网页上的父目录链接。
- `-R`：排除列表，这里我排除了所有的HTML文件（html,htm）。
- `http://example.com`：被下载的网站地址。

这样设置后，`wget`会在不下载任何HTML文件的情况下，从指定的网站递归下载所有指定类型的文件。

举个例子，如果我要从一个音乐学校的网站下载所有的课件和音频文件，而这些文件主要是PDF和MP3格式，我可以使用类似上述的命令，只需要调整网站的URL以及可能需要调整文件类型列表确保只下载需要的文件类型。这种方法非常有效，也易于操作。


How to download all files (but not HTML) from a website using wget?

1个答案

你的答案