简单的爬虫脚本编写

ops/2024/11/26 9:32:43/

一、数据来源分析

想爬取一个网站的数据,我们首先要进行数据分析。通过浏览器F12开发者工具栏进行抓包,可以分析我们想要的数据来源。

通过关键字搜索,可以找到相对应的数据包

爬虫实现">二、爬虫实现

需要用到的模块为:request,parsel

1.发送请求

    模拟浏览器对于分析得到的URL地址发送请求,返回响应包

url = 'https://example.com'
#浏览器F12查看网络,请求头中可以查看User-Agent,目的是实现浏览器标识,请求合法化
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:132.0) Gecko/20100101 Firefox/132.0'}
#使用request,将响应数据传入res变量
res = requests.get(url=url,headers=headers)

2.获取数据

    获取响应的数据包

#创建Selector对象后,你可以使用它来提取网页中的特定数据。例如,你可以使用XPath或CSS选择器来查找元素:
selector = parsel.Selector(res.text)

3.解析数据

    解析数据内容,获取我们想要的内容。

    创建Selector对象后,你可以使用它来提取网页中的特定数据。可以使用XPath或CSS选择器来查找元素

trs = selector.css('CSS选择器')#遍历每一组数据for tr in trs:#获取每一行的第一个数据first = tr.css('td:nth-child(1)::text').get()#将每一个数据写插入列表example_list.append(first)

4.保存数据

将爬取下来的目标数据进行保存.

with open('example.txt','w',encoding=utf-8') as f:for item in example.list:f.write(str(item) + '\n')

在使用with语句打开文件时,不需要显式调用f.close()来关闭文件。with语句会在代码块执行完毕后自动关闭文件。


http://www.ppmy.cn/ops/136797.html

相关文章

NVR小程序接入平台EasyNVR多品牌NVR管理工具:高效管理分散视频资源的解决方案

在当今数字化、智能化的时代背景下,视频监控已成为各行各业不可或缺的一部分,从公共安全到企业运维,再到智慧城市建设,视频资源的管理与应用正面临着前所未有的挑战。如何高效整合、管理这些遍布各地的分散视频资源,成…

单机部署kubernetes环境下Overleaf-基于MicroK8s的Overleaf应用部署指南

在本文中,我们将探讨如何使用MicroK8s在本地或云环境中快速部署Overleaf应用。MicroK8s是一个轻量级的Kubernetes发行版,它为开发者提供了一个简单的方式来部署和管理容器化应用。 需要使用Kompose转换Overleaf官方Docker Compose配置得到适用于kuberne…

数据结构——排序算法第一幕(插入排序:直接插入排序、希尔排序 选择排序:直接选择排序,堆排序)超详细!!!!

文章目录 前言一、排序1.1 概念1.2 常见的排序算法 二、插入排序2.1 直接插入排序2.2 希尔排序希尔排序的时间复杂度 三、选择排序3.1 直接选择排序3.2 堆排序 总结 前言 时间很快,转眼间已经到数据结构的排序算法部分啦 今天我们来学习排序算法当中的 插入排序 和 …

docker部署redis,并设置密码

获取官方镜像 redis:7.4.1 准备配置文件 文件 redis.conf requirepass xxx密码请自行设置 准备启动脚本 start_redis.sh 注意: 要把这个脚本和上面的redis.conf放到同一个目录下。 workdir$(cd $(dirname $0); pwd) redis_id"$(docker ps -a| grep red…

C# Winform 五子棋小游戏源码

文章目录 1.设计来源五子棋小游戏讲解1.1 主界面1.2 对弈棋盘界面1.3 对弈结束界面 2.效果和源码2.1 动态效果2.2 源代码 源码下载万套模板,程序开发,在线开发,在线沟通 作者:xcLeigh 文章地址:https://blog.csdn.net/…

图像拟合算法全解析:从基础原理到前沿实践

摘要: 本文全面且深入地阐述了多种图像拟合算法,涵盖线性回归、多项式拟合、最小二乘法拟合、高斯拟合以及基于深度学习的图像拟合方法等。针对每种算法,详细剖析其原理、数学模型、具体实现步骤,并细致探讨它们的优缺点与适用场景…

redis的map底层数据结构 分别什么时候使用哈希表(Hash Table)和压缩列表(ZipList)

在Redis中,Hash数据类型的底层数据结构可以是压缩列表(ZipList)或者哈希表(HashTable)。这两种结构的使用取决于特定的条件: 1. **使用ZipList的条件**: - 当Hash中的数据项(即f…

健身房小程序服务渠道开展

健身不单单是锻炼身体、保持身材,也是一种社交方式,城市里门店不少,每家都有一定流量和老客,但仅靠传统线下拉客/自然流量前往和线上朋友圈、短视频发硬广等方式还不够。 商家需要找到更多潜在目标客户,而消费者也对门…