【Python实战】---- 爬取 CSDN 专栏文章列表

server/2024/9/23 19:13:17/

1. 场景

需求就是专栏中文章随着时间写的越多,如果后边需要去查找的时候比较麻烦,比如一些不常用的 git 命令,或者有些开发场景的细节,在之前已经开发完了,现在忘记部分细节,需要在之前的输出文章中去查找,当几十几百篇文章时,查找就比较麻烦,但是如果没发布一篇文章,自己去更新专栏的文章目录又是一个比较繁琐的事情,因此写了一个小的爬取程序,在每次发布新的文章时,运行此程序,就可以更新文章目录,方便后期在需要的时候能够快速查找。

2. 引入使用模块

  1. requests 获取网页的内容;
  2. re 使用正则匹配文章的发布日期;
  3. time 用于每次获取网页后的等待,防止被 CSDN 识别为爬虫;
  4. datetime 用于文章发布日期的排序格式化;
  5. BeautifulSoup HTML 解析。
import requests
import re
import time
from datetime import datetime
from bs4 import BeautifulSoup

3. 获取专栏文章


http://www.ppmy.cn/server/119568.html

相关文章

MinIO自动化下载及部署脚本(Windows)

提前准备事项 直接上脚本代码,需要保存为Power shell脚本文件,然后在执行 脚本执行策略 注意:Windows默认是禁止脚本运行的,需要放开一下脚本执行策略 临时更改执行策略(仅对当前会话有效):…

ARM/Linux嵌入式面经(三五):诺瓦星云提前批

文章目录 SPI通信有哪些内核接口回答面试官追问及回答应用层和驱动是怎么交互的回答面试官追问及回答stm32和imx6u有什么区别一、基本概述二、性能与特点三、启动方式四、开发工具与生态系统面试官追问示例通信实时性是通过什么手段去保证的回答面试官追问及回答线程的同步机制…

axios二次封装

axios的使用以及二次封装 一:axios的使用二:vue中的二次封装1.终端下载2.main.js中引入3.封装axios实例--http.js4.添加请求拦截器5.添加响应1拦截器6.封装请求API7.组件内使用 一:axios的使用 1.下载 npm i axios -S2.引入 import axios …

Android 内置应用裁剪

文章目录 查询目标 APK 的 Android.mk(或 Android.bp)文件apk裁剪方式1.注释或删除.mk/.bp文件2.将 APK 名称加入“OVERRIDES”配置项中3.自定义“PRODUCT_PACKAGES_REMOVE”配置项 查询目标 APK 的 Android.mk(或 Android.bp)文件…

后端开发刷题 | 数字字符串转化成IP地址

描述 现在有一个只包含数字的字符串,将该字符串转化成IP地址的形式,返回所有可能的情况。 例如: 给出的字符串为"25525522135", 返回["255.255.22.135", "255.255.221.35"]. (顺序没有关系) 数据范围&…

【Python决策树】ID3方法建立决策树为字典格式,并调用 treelib 显示

首先,我们使用 treelib 库来显示树结构 : ps : 如果 treelib 输出一堆乱码, 可以点进Tree修改 tree.py 大概 930 行左右的部分(去掉encode就行了) if stdout:print(self._reader) # print(self._reader.encode("utf-8"))else:return self._reader将字典…

职场 Death Note

场景一 测试:哎,怎么会这样呢?时间没到,他怎么就变成这个样子了呢?一副大惊小怪,整个办公室都是他的声音 开发:对对对,我代码问题,别BB了。 你直接说这个地方不对&#…

大数据概念与价值

文章目录 引言大数据的概念高德纳咨询公司的定义麦肯锡全球研究所的定义什么是大数据? 大数据的特征Volume(体积)Variety(种类)Velocity(速度)Value(价值)Veracity&#…