项目十二：简单的python基础爬虫训练

项目十二：简单的python基础爬虫训练

news/2024/11/13 9:20:52/

许久未见，甚是想念，今日好运，为你带好运。ok，废话不多说，希望这门案例能带你直接快速了解并运用。🎁💖

基础流程

第一步：安装需要用到的requests库，命令如下

pip install requests

第二步：随意找个目标网址

python">url = '目标网址'

第三步：发送请求get响应

python">req = requests.get(url)

第四步：打印响应信息

python">print(req_text)

完整代码如下

python">import requests #导入库
url = 'http://gitbook.cn/' #目标网址
req = requests.get(url) #发送请求
print(req.text) #打印信息

输出结果

ok,这四步流程就是走完了，接下来就是怎么把爬取的数据保存下来，那么继续往下看。

存储数据

存储数据的格式有很多种，例如csv、html、spl、xls等，全看个人意愿选择。基本代码如下

python">with open('./文件名称路径', '文件操作模式', encoding = '编码格式') as fp:fp.write(page_text) #括号内容为变量，包含要写入的文本内容

最终代码如下

python">import requests # 导入requests模块
url = 'https://www.sogou.com' # 要爬取的网址
req = requests.get(url) # 发起请求
page_text = req.text # 获取网页内容
print(page_text) # 此行代码可以不加，看个人喜好，不影响程序运行
with open('./sogou.html', 'w', encoding = 'utf-8') as fp: # 保存网页内容到本地fp.write(page_text) # 写入文件

输出结果：

这些简单的爬虫流程我们从爬取数据到存储数据就是做完了，是不是很简单啊，当然，对任何事物还是要保持敬畏之心和上进之心。

我是好运，想要好运，今日分享，到此一游

http://www.ppmy.cn/news/1462707.html

相关文章

基于Docker Compose部署One-API的详细指南

基于Docker Compose部署One-API的详细指南

部署One-API的详细指南前言 one-api是一个开源项目(https://github.com/songquanpeng/one-api)，旨在简化API的开发与管理过程。这个项目提供了一个全面的解决方案，特别适用于需要高效管理API接口的开发者和团队。以下是该项目的一些核心特点和功能&am…

阅读更多...

揭秘齿轮加工工艺的选用原则：精准打造高效传动的秘密武器

揭秘齿轮加工工艺的选用原则：精准打造高效传动的秘密武器

在机械制造领域，齿轮作为传动系统中的重要组成部分，其加工工艺的选择至关重要。不同的齿轮加工工艺会影响齿轮的精度、耐用性和效率。本文将通过递进式结构，深入探讨齿轮加工工艺的选用原则，带您了解如何精准打造高效传动的秘密武…

阅读更多...

2024年了, 你还不会使用node.js做压力测试?

2024年了, 你还不会使用node.js做压力测试?

前些天刷抖音，看到网传的Java继父，求人攻击压测他的网站，这不得摩拳擦掌。所以今天来聊聊如何对自己的项目、接口进行压力测试。压力测试的目的首先, 绝对不是为了压测、攻击别人的网站为乐。 1、探索线上系统流量承载的极限&#xff…

阅读更多...

接口测试流程详解

接口测试流程详解

🍅 视频学习：文末有免费的配套视频可观看 🍅 点击文末小卡片，免费获取软件测试全套资料，资料在手，涨薪更快在讲接口测试流程之前，首先需要给大家申明下：接口测试对于测试人员而言&a…

阅读更多...

系统架构师-考试-基础题-错题集锦1

系统架构师-考试-基础题-错题集锦1

系统架构师-考试-基础题-错题集锦 1.当一台服务器出现故障时将业务迁移到另外一台物理服务器上，保障了业务的连续性。 2.面向对象： 实体类，边界类，控制类 3.RUP：UP，统一过程，以架构为中心&am…

阅读更多...

hive结合Hbase实现实时数据处理和批量分析

hive结合Hbase实现实时数据处理和批量分析

问题背景 Hive主要设计为一个用于大数据集的批处理查询引擎，并不是为实时查询或实时数据更新而设计的。它主要用于执行数据摘要、查询和分析。因此，Hive本身不支持实时数据更新或实时查询，它更适合用于对大量数据进行批量处理和分析。分析…

阅读更多...

美国空军出版物：网络空间作战

美国空军出版物：网络空间作战

这份文件是《AIR FORCE DOCTRINE PUBLICATION 3-12: CYBERSPACE OPERATIONS》，即美国空军教义出版物3-12，关于网络空间作战。该文件详细阐述了美国空军在网络空间领域的组织、规划、执行、评估以及相关的政策、角色和责任。以下是其核心内容的概述&a…

阅读更多...

事务管理控制

事务管理控制

文章目录 1. 事务的基本概念2. 数据库的并发控制2.1 事务调度2.2 并发操作带来的问题2.3 并发调度的可串行性2.4 并发控制技术2.5 两段锁协议2.6 多粒度封锁协议 3. 数据库的备份与恢复3.1 数据库系统故障3.2 数据库的备份3.3 数据库的恢复 4. 数据库的安全性与完整性4.1 数据库…

阅读更多...

最新文章