How to pass a user defined argument in scrapy spider

在Scrapy中，传递用户定义的参数可以通过多种方式实现，最常见的方法是在启动spider时通过命令行传递参数。另外，也可以在代码中通过重写__init__方法来传递参数。下面我将详细介绍这两种方法。

方法一：命令行传递参数

当你使用命令行启动Scrapy spider时，可以使用-a选项来传递参数。这些参数将会被传递到spider的构造函数中，并可以在spider内部使用。

示例:

假设你有一个spider，名为MySpider，需要根据用户输入的category参数来爬取不同类别的数据。

首先，在spider代码中，你可以这样访问这个参数：

python
import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'

    def __init__(self, category=None, *args, **kwargs):
        super(MySpider, self).__init__(*args, **kwargs)
        self.category = category

    def start_requests(self):
        url = f'http://example.com/{self.category}'
        yield scrapy.Request(url=url, callback=self.parse)

    def parse(self, response):
        # 这里是你的解析逻辑
        pass

接着，在命令行中启动spider时，可以这样传递参数：

bash
scrapy crawl my_spider -a category=books

这样，spider就会根据传递的category参数值books来构建请求URL。

方法二：在代码中设置参数

如果你想在代码中设置参数，而不是通过命令行，你可以在创建spider实例的时候直接传递参数给__init__方法。这通常在你需要在脚本中动态创建spider并传递参数时使用。

示例:

python
from scrapy.crawler import CrawlerProcess
from myspiders import MySpider

process = CrawlerProcess({
    'USER_AGENT': 'Mozilla/5.0 (compatible; MSIE 7.0; Windows NT 5.1)'
})

category = 'electronics'
spider = MySpider(category=category)
process.crawl(spider)
process.start()

这里，我们在创建MySpider实例时直接传递了category参数。

总结

通过这两种方法，你都可以灵活地传递自定义参数到Scrapy的spider中，从而根据不同的需求动态调整spider的行为。这在处理需要根据用户输入或其他条件变化的爬虫任务时非常有用。

2024年7月23日 16:34 回复

1个答案

方法一：命令行传递参数

方法二：在代码中设置参数

总结

你的答案