1.简单的爬虫

ops/2025/1/21 12:38:25/

1.数据在哪里?

  1. 在页面源码里
    1. 直接获取数据
  2. 不在页面源码里
    1. 找到真正获取数据的URL,再获取数据

2.requests模块

  1. 安装

    pip install requests
    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple requests
    
  2. 抓网站文字数据

    import requestsurl = "https://gaze.run/"
    header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
    }resp = requests.get(url)# 检查响应状态码
    if resp.status_code == 200:# 检查响应内容是否包含特定字符串if "斗破苍穹" in resp.text:print("Website is up!")
    else:print("Website is down!")   
    
  3. 抓网站图片、视频、音频

    import requestsurl = "https://img2.doubanio.com/view/photo/s_ratio_poster/public/p2578474613.jpg"
    resp = requests.get(url)
    file_name = url.split("/")[-1]
    with open(file_name, mode="wb") as f:f.write(resp.content)  # resp.content得到的是bytes(字节)
    
  4. 知识点汇总

    1. 请求
      1. requests.get(),发送get请求,请求的参数可以放在url里面,也可以传递给params
      2. requestes.post(),发送post请求,请求参数放在字典里,再传递给data
    2. 响应
      1. resp.text接收文本
      2. resp.json()接收json字符串
      3. resp.content接收字节

http://www.ppmy.cn/ops/151912.html

相关文章

《重生到现代之从零开始的C++生活》—— 类和对象1

类 我嘞个豆,类可是太重要了,简直是重中之重 class为定义类的关键字,stack为类的名字,{}为类的主题 class stack {void add (int a,int b){return ab;}//类的方法,成员函数int _c;int _d;//类的属性,成…

最长递增子序列问题(Longest Increasing Subsequence),动态规划法解决,贪心算法 + 二分查找优化

问题描述&#xff1a;在一个大小乱序的数列中&#xff0c;找到一个最大长度的递增子序列&#xff0c;子序列中的数据在原始数列中的相对位置保持不变&#xff0c;可以不连续&#xff0c;但必须递增。 输入描述&#xff1a; 第一行输入数列的长度 n。(1 < n < 200) 第二…

git创建分支,推送分支,合并分支,回退

1.可视化操作初始化仓库&#xff0c;设置远程连接&#xff0c;抓取远程仓库的分支内容,然后在版本管理的原创下面的主支 点击重置到哪个版本&#xff0c;覆盖原始内容(取消保持工作区的内容) 2.创建并切换到新分支&#xff1a;git checkout -b lzh (如果是切换不创建去掉-b) 3…

【数据分享】1929-2024年全球站点的逐年平均气温数据(Shp\Excel\无需转发)

气象数据是在各项研究中都经常使用的数据&#xff0c;气象指标包括气温、风速、降水、湿度等指标&#xff0c;其中又以气温指标最为常用&#xff01;说到气温数据&#xff0c;最详细的气温数据是具体到气象监测站点的气温数据&#xff01;本次我们为大家带来的就是具体到气象监…

无人机技术架构剖析!

一、飞机平台系统 飞机平台系统是无人机飞行的主体平台&#xff0c;主要提供飞行能力和装载功能。它由机体结构、动力装置、电气设备等组成。 机体结构&#xff1a;无人机的机身是其核心结构&#xff0c;承载着其他各个组件并提供稳定性。常见的机身材料包括碳纤维、铝合金、…

睡眠时间影响因素K-Means可视化分析+XGBoost预测

1. 导包及数据展示 import numpy as np import pandas as pd import seaborn as sns import matplotlib import matplotlib.pyplot as plt from sklearn.model_selection import train_test_split from sklearn.cluster import KMeans from xgboost import XGBRegressor from …

【2024 CSDN博客之星】技术洞察类:从DeepSeek-V3的成功,看MoE混合专家网络对深度学习算法领域的影响(MoE代码级实战)

目录 一、引言 1.1 本篇文章侧重点 1.2 技术洞察—MoE&#xff08;Mixture-of-Experts&#xff0c;混合专家网络&#xff09; 二、MoE&#xff08;Mixture-of-Experts&#xff0c;混合专家网络&#xff09; 2.1 技术原理 2.2 技术优缺点 2.3 业务代码实践 2.3.1 业务场…

.gitignore配置忽略out目录

文章目录 说明操作 说明 可以结合IDEA可视化操作git&#xff0c;只要不删除远程仓库&#xff0c;如果本地操作项目出现错误&#xff0c;可以直接修改远程仓库的.gitignore文件&#xff0c;并重新拉取项目到本地。 操作 在项目根目录下找到 .gitignore 文件&#xff0c;打开并…