简单的爬虫脚本编写

embedded/2024/11/20 1:59:34/

一、数据来源分析

想爬取一个网站的数据,我们首先要进行数据分析。通过浏览器F12开发者工具栏进行抓包,可以分析我们想要的数据来源。

通过关键字搜索,可以找到相对应的数据包

爬虫实现">二、爬虫实现

需要用到的模块为:request,parsel

1.发送请求

    模拟浏览器对于分析得到的URL地址发送请求,返回响应包

url = 'https://example.com'
#浏览器F12查看网络,请求头中可以查看User-Agent,目的是实现浏览器标识,请求合法化
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:132.0) Gecko/20100101 Firefox/132.0'}
#使用request,将响应数据传入res变量
res = requests.get(url=url,headers=headers)

2.获取数据

    获取响应的数据包

#创建Selector对象后,你可以使用它来提取网页中的特定数据。例如,你可以使用XPath或CSS选择器来查找元素:
selector = parsel.Selector(res.text)

3.解析数据

    解析数据内容,获取我们想要的内容。

    创建Selector对象后,你可以使用它来提取网页中的特定数据。可以使用XPath或CSS选择器来查找元素

trs = selector.css('CSS选择器')#遍历每一组数据for tr in trs:#获取每一行的第一个数据first = tr.css('td:nth-child(1)::text').get()#将每一个数据写插入列表example_list.append(first)

4.保存数据

将爬取下来的目标数据进行保存.

with open('example.txt','w',encoding=utf-8') as f:for item in example.list:f.write(str(item) + '\n')

在使用with语句打开文件时,不需要显式调用f.close()来关闭文件。with语句会在代码块执行完毕后自动关闭文件。


http://www.ppmy.cn/embedded/138934.html

相关文章

数据库基本概念学习笔记

1.数据库是什么 数据库是按照数据结构来组织、存储和管理数据的仓库,它是一个长期存储在计算机内的、有组织的、可共享的、统一管理的数据集合。 1.1数据库的组成部分 数据:是数据库中存储的基本对象,包括文字、数字、图像、声音等各种类型…

15分钟学 Go 第 58 天 :复习与总结

复习与总结 1. 定位薄弱环节 首先,回顾你在学习Go语言过程中遇到的困难。我们可以将学习内容按“基础概念”、“并发编程”、“错误处理”、“接口和类型系统”等几个方面进行总结。这将帮助我们清晰地确定复习的重点。 复习表格 学习领域薄弱环节复习方法例子代…

11.12.2024刷华为OD-集合的使用,递归回溯的使用

文章目录 HJ41 集合的使用HJ43 迷宫问题--递归回溯的使用语法知识记录 HJ41 集合的使用 HJ43 迷宫问题–递归回溯的使用 def dfs(x, y, path, grid):n len(grid)m len(grid[0])if x n-1 and y m-1:for cor in path:print("({},{})".format(cor[0],cor[1]))# 判断…

卷积神经网络CNN——卷积层、池化层、全连接层

文章目录 1.CNN网络的构成2.卷积层2.1卷积的计算方法2.2 padding2.3 stride2.4 多通道卷积2.5 多卷积核卷积2.6 特征图大小 3.池化层(Pooling)3.1 最大池化3.2平均池化 4.全连接层5.卷积神经网络的搭建5.1 数据加载5.2 数据处理5.3 模型搭建5.4 模型编译…

ue5 蓝图学习(一)结构体的使用

在内容浏览器中右键 蓝图-选择结构体 下面这东西就是结构体,和C的结构体差不多 双击一下 可以添加变量,设置变量的类型和默认值。 可以在关卡蓝图中调用它。 点击打开关卡蓝图,添加变量 在变量的右侧,变量类型里搜索strcut&#…

CentOS网络配置

上一篇文章:VMware Workstation安装Centos系统 在CentOS系统中进行网络配置是确保系统能够顺畅接入网络的重要步骤。本文将详细介绍如何配置静态IP地址、网关、DNS等关键网络参数,以帮助需要的人快速掌握CentOS网络配置的基本方法和技巧。通过遵循本文的…

【Linux】环境变量详解

Linux环境变量 1.环境变量分类2.环境变量相关指令3.常用的环境变量4.环境变量的组织方式5.获取环境变量6.命令行参数 1.环境变量分类 按生命周期划分: 永久的:在环境变量脚本文件中配置,用户每次登录时会自动执行这些脚本,相当于永…

LeetCode 18. 四数之和 Java题解

这道题是扩展的三数之和。在三数之和中,我们固定a,利用双指针寻找b和c(两头分别开始找),将复杂度从3次方降到了2次方。在四数之和中,我们固定a和b,双指针寻找c和d。将复杂度从4次方降到了3次方。 1.考虑剪枝情况。如果…