【笔记】0基础python学爬虫(未完)

embedded/2024/9/20 15:43:43/

(一)用requests发送get请求

安装好pycharm(跳过)

在本地控制台输入pip install requests 安装requests模块

with防止资源浪费 不论f文件有没有执行成功最后都会关闭

请求获取url

resp = requests.get(url)

resp.text获取源代码

as f:表示将打开的文件对象赋值给变量 f。通过 f,你可以操作这个文件,比如读写文件内容

(二)发送post请求

你编出来的数据名称 = {“kw":要爬虫的关键字}

kw表示查询的关键词(keyword)

通过 数据={“kw”:}可以访问字典中键 kw 对应的值(即用户输入的单词)

input() 是一个内置的 Python 函数,用来获取用户输入。

在执行时,input("请输入你想查询的单词") 会在控制台向用户显示提示语句 **"请输入你想查询的单词"**,然后等待用户在控制台输入文本。

用户输入的文本会作为字符串返回,并存储在字典 数据 的 kw 键中。

requests.post(url,data = 你编出来的数据名称)

(三)正则表达式

.*取对应的头和尾的最远距离范围

.*?取对应头和尾的最近距离

图中红色阴影部分为 对应头和尾

(四)re模块

(五)正则+re的实战

.*?匹配到代码中正则表达式的头和尾(最近) 命名则提取 不命名则过滤

输出时用上面两个哪个都可以

(六)xpath = xml html

xpath导入方式:

加载器:

重点:

导入语句 from lxml import etree

f对象写入html源代码 

etree.HTML()再将加载好的html代码解析成一个dom树

语法:

自己抓了个网址代码写入xpath_test.html 活学活用

text()是提取标签中间的文本

* 是任意符

@ 可以提取标签中的属性的文本

// 是随机位置

标签[属性='属性名'] 可以提取固定条件的文本

写循环输出时

把要输出内容的共同部分写成et.xpath(”“)第一部分

共同部分之下要提取的分类进行提取 如何输出

./ 表示共同部分的路径


http://www.ppmy.cn/embedded/99622.html

相关文章

Logstash Docker 部署 安装 logstash-output-jdbc

Logstash Docker 部署 安装 logstash-output-jdbc 前置步骤参考:https://blog.csdn.net/weixin_44121790/article/details/141305720 问题: 今天使用docker 部署logstash,遇到无法运行的问题,原因是因为配置问题使用了 logstas…

2024网络安全学习路线 非常详细 推荐学习

关键词:网络安全入门、渗透测试学习、零基础学安全、网络安全学习路线 首先咱们聊聊,学习网络安全方向通常会有哪些问题 1、打基础时间太长 学基础花费很长时间,光语言都有几门,有些人会倒在学习 linux 系统及命令的路上&#…

EKS开源系列之XF_UTILS工具库

EKS开源系列之XF_UTILS工具库 为啥要写这个中间件这个中间件的特色xf_utils 有那些功能文件夹结构xf_utils API 有哪些xf_checkxf_lockxf_stdxf_utils_logxf_commonxf_attributexf_bit_defsxf_errxf_listxf_predefxf_version 开源链接移植教程 为啥要写这个中间件 当我们开发软…

支持redis和zookeeper的分布式锁组件lock4j

Lock4j是一个基于Spring AOP的分布式锁组件,它提供了多种底层实现(如RedisTemplate、Redisson、Zookeeper)以满足不同性能和环境的需求。 开源地址:GitHub - baomidou/lock4j: 基于Spring AOP 的声明式和编程式分布式锁&#xff…

Vue 2 项目升级到 Vue 3 操作手册

引言 Vue 3 是 Vue.js 框架的重大版本更新,引入了许多新特性和性能改进。本文将详细介绍如何将一个现有的 Vue 2 项目逐步升级到 Vue 3,并提供具体的步骤和示例代码。 1. Vue 3 的新特性 在开始升级之前,让我们先了解一下 Vue 3 中的一些重…

全新分支版本!微软推出Windows 11 Canary Build 27686版

已经很久没有看到 Windows 11 全新的分支版本了,今天微软发布 Windows 11 Canary 新版本,此次版本号已经转移到 Build 27xxx,首发版本为 Build 27686 版。 此次更新带来了多项改进,包括 Windows Sandbox 沙盒功能切换到 Microsof…

electron 官网速通

前言:参考Electron 中文网。 核心知识点:有哪些进程,进程之间的通信,electron API 分类及怎么调用。 一、快速开始 1. 新建一个 my-electron 的文件夹。 2. 运行 npm init 创建 package.json 文件。 3. 填写 author 和 descr…

DID测试套件

DID测试套件 介绍 名称 DID Test Suite 网址 https://github.com/w3c/did-test-suite 功能 用于验证DID实现是否符合W3C DID Core规范的一系列测试反映各DID方法(如did:orb、did:key、did:web等)的实现对DID Core规范的遵从程度确保不同DID方法、…