scrapy爬取名人名言

news/2024/11/2 15:07:00/

爬取名人名言:http://quotes.toscrape.com/

1 创建爬虫项目,在终端中输入:

python">scrapy startproject quotes

在这里插入图片描述

2 创建之后,在spiders文件夹下面创建爬虫文件quotes.py,内容如下:

python">import scrapy
from scrapy.spiders import CrawlSpider, Rule
from scrapy.linkextractors import LinkExtractorclass Quotes(CrawlSpider):name = "quotes"allowed_domains = ["quotes.toscrape.com"]start_urls = ['http://quotes.toscrape.com/']rules = (Rule(LinkExtractor(allow='/page/\d+'), callback='parse_quotes', follow=True),Rule(LinkExtractor(allow='/author/\w+'), callback='parse_author'))def parse_quotes(self, response):for quote in response.css('quote'):yield {'content': quote.css('.text::text').extract_first(),'author': quote.css('.author::text').extract_first(),'tags': quote.css('.tag::text').extract_first()}def parse_author(selfself, response):name = response.css('.author-title::text').extract_first()author_born_date = response.css('.author-born-date::text').extract_first()author_born_location = response.css('.author-born-location::text').extract_first()author_description = response.css('.author-description::text').extract_first()return ({'name': name,'author_born_date': author_born_date,'author_born_location': author_born_location,'author_description': author_description})

目录结构如下:
在这里插入图片描述

3 运行爬虫

在终端中执行scrapy crawl quotes,结果如图所示:
在这里插入图片描述
到此,一个简单的爬虫就完成了。


http://www.ppmy.cn/news/1543895.html

相关文章

Webserver(2.6)信号

目录 信号的概念信号相关的函数killraiseabortalarm1s钟电脑能数多少个数? setitimer过3s以后,每隔2s定时一次 信号捕捉函数signalsigaction 信号集sigprocmask编写一个程序,把所有的常规信号未决状态打印到屏幕 sigchld信号 信号的概念 比如…

【Rust练习】18.特征 Trait

练习题来自:https://practice-zh.course.rs/generics-traits/traits.html 1 // 完成两个 impl 语句块 // 不要修改 main 中的代码 trait Hello {fn say_hi(&self) -> String {String::from("hi")}fn say_something(&self) -> String; }str…

2023数学分析【南昌大学】

计算 求极限 lim ⁡ n → ∞ ( 1 n 2 + 1 2 + 1 n 2 + 2 2 + ⋯ + 1 n 2 + n 2 ) \mathop{\lim }\limits_{n \to \infty } \left( \frac{1}{{\sqrt {n^2 + 1^2} }} + \frac{1}{{\sqrt {n^2 + 2^2} }} + \cdots + \frac{1}{{\sqrt {n^2 + n^2} }} \right) n→∞lim​(n2+12 ​1…

2022 NOIP 题解

建造军营 这道题之前做过一次,我们来转换一下这道题的题意,题中给到了边、点我们可以想到强连通分量,进而想到tarjan算法。通过所给样例及题意,我们可以将原题目转化为以下内容: 给定一张图,选择一些点和边&#xff…

redis分布式锁在项目中的应用总结

项目应用 应用1 redis分布式锁实现两个操作的原子性 需求:实现一人一单业务逻辑时(如果能走到这个逻辑,代表库存是充足的),我们需要 先查询订单 如果订单不存在即没有买过则创建订单 这两个步骤我们要保证是原子…

6、磁盘管理

如何对硬盘进行分区?创建文件系统?挂载? 如何自动挂载? 硬盘概念 基本概念 硬盘是一种计算机的存储设备,通常是由一个或多个磁盘片组成,硬盘可以安装在计算机的内部,也可以外接计算机&#x…

【搜索引擎】俄罗斯搜索引擎yandex

俄罗斯搜索引擎yandex 1997年,俄罗斯搜索引擎Yandex(俄语意为:语言目录)首次上线,已发展成为全球第四大搜索引擎和第二大非英语搜索引擎 https://yandex.com/

新能源汽车火灾应急处置程序

摘要:新能源汽车在人们的日常生活中被广泛应用,但其消防安全问题也逐渐凸显。本文分析了新能源汽车的起火原因、燃烧危害性,并着重阐述了新能源汽车发生火灾后消防应急处置程序及应对措施等。 关键词:新能源汽车;火灾…