Scrapy 可以实现用户动态添加起始URL吗

2024-11-17 08:23:41
推荐回答(1个)
回答(1):

使用scrapy-redis管理url队列,能随时向redis里面push新的start_urls,可以实现你的需求
使用很简单 pip install scrapy-redis 安装
然后修改常规spider文件
1.引入RedisCrawlSpider

from scrapy_redis.spiders import RedisCrawlSpider

2.将spider类继承改为RedisCrawlSpider

class BaiduSpider(RedisCrawlSpider):

3.将

start_urls = (
'https://www.baidu.com',
)

替换为

redis_key = 'baidu_spider:start_urls'

4.然后在setting里面设置redis数据库的地址等

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
SCHEDULER_PERSIST = True
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.SpiderPriorityQueue'
REDIS_URL = 'redis://127.0.0.1:6379'
REDIS_HOST = '127.0.0.1'
REDIS_PORT = 6379
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

5.然后启动爬虫,此时已经在使用redis管理url队列,但是redis里面还没有start_urls
使用命令

lpush baidu_spider:start_urls https://www.baidu.com

将start_urls push进redis
然后爬虫就会开始爬取了哦

中途任意时间可以运行上面的命令将start_urls push进redis 进行爬取