Python scrapy爬取图片管道重温之爬取唯美壁纸

news/2024/11/8 17:00:59/

重温了一下爬取图片的管道，同时发现了-t crawl格式的新用法，特意记录下来，爬取网站是 enterdesk。

说道新用法，主要是rules的用法，之前一直以为rule只能管理当前页，不能提取下级下下级的链接，还是 too young, sometimes naive, 嘿嘿。

rules是可以支持下级页面的爬取的，但是建议将主页面放在最下，次级页面次之，最下级页面最上，也就是反过来排序，如下面的代码。
当前我们只需要在最下级页面中提取url字段并拿给图像管道，因此，只需要一个parse函数即可。

爬虫文件

# -*- coding: utf-8 -*-
import scrapyfrom scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ..items import Wallpaper2Itemclass PrettySpider(CrawlSpider):name = 'pretty'allowed_domains = ['www.enterdesk.com']start_urls = ['https://www.enterdesk.com/special/wmtp/']rules = (Rule(LinkExtractor(allow=r'//www\.enterdesk\.com/download/\d+-\d+/'), callback='parse_item', follow=False),# 下载页找图片地址，需要解析callbackRule(LinkExtractor(allow=r'/bizhi/\d+-\d+\.html'), follow=True),# # 详情页找下载页，不需要callbackRule(LinkExtractor(allow=r'https://www\.enterdesk\.com/bizhi/\d+.html'), follow=True),# 详情页，不需要callback)def parse_item(self, response):item = Wallpaper2Item()item['image_urls'] = response.xpath('//img[@id="down_main_pic"]/@src').extract()print(item)yield item

setting中需要修改一下ua，以及开启图像管道，存储图像的位置

LOG_LEVEL = "WARNING"
DOWNLOAD_DELAY = 2
ITEM_PIPELINES = {# 'wallpaper2.pipelines.Wallpaper2Pipeline': 300,'scrapy.pipelines.images.ImagesPipeline':300,# from scrapy.pipelines.images import ImagesPipeline 可以这样找imagespipeline的位置
}IMAGES_STORE = 'img'

items中开启

import scrapyclass Wallpaper2Item(scrapy.Item):# define the fields for your item here like:image_urls = scrapy.Field()images = scrapy.Field()

无需更多定制即可开爬，结果如下：
在这里插入图片描述

Python scrapy爬取图片管道重温之爬取唯美壁纸

相关文章

web测试工程师的工作职责

FreeRTOS-定时器详解

【分页表格】Vue2 + Element UI实现自定义的分页表格组件（自定义Vue组件）

平板电脑保护盖自动锁屏使用的技术

松下Android 坚固型平板,[图]松下发布坚固型安卓平板Toughbook FZ-L1

松下Android 坚固型平板,松下发布全新坚固型安卓平板Toughbook FZ-L1

android平板加密软件,针对 Android 、 Windows 手机平板资料与 app 加密防护， FingerQ 推出多款手机壳与 Q-Key 指纹加密器...

android平板下架,小米曾被定义为“最好用的Android平板电脑”在本周下架了