Python爬虫实战(实战篇)—17获取【CSDN某一专栏】数据转为Markdown列表放入文章中

embedded/2024/9/25 3:19:12/

文章目录

  • 专栏导读
  • 背景
  • 结果预览
  • 1、页面分析
  • 2、通过返回数据发现适合利用lxml+xpath
  • 3、进行Markdown语言拼接
  • 总结

专栏导读

在这里插入图片描述

🔥🔥本文已收录于《Python基础篇爬虫

🉑🉑本专栏专门针对于有爬虫基础准备的一套基础教学,轻松掌握Python爬虫,欢迎各位同学订阅,专栏订阅地址:点我直达

🤞🤞此外如果您已工作,如需利用Python解决办公中常见的问题,欢迎订阅《Python办公自动化》专栏,订阅地址:点我直达

🔺🔺此外《Python30天从入门到熟练》专栏已上线,欢迎大家订阅,订阅地址:点我直达

背景

  • 我经常会将CSDN写过的某一专栏的其他文章转为Markdown列表,放入到新的文章中,这样方便友友们看到我之前的写的文章,然后点击链接即可跳转查看!!,我觉得这样非常方便

结果预览

在这里插入图片描述

1、页面分析

  • 就以我的【爬虫专栏进行分析】

  • 爬取URL:https://blog.csdn.net/weixin_42636075/category_11978272.html

  • 爬取方法:GET

  • 返回数据:整个页面(TXT)

在这里插入图片描述

在这里插入图片描述

  • 初步代码

python"># -*- coding: UTF-8 -*-
'''
@Project :项目名称
@File    :程序.py
@IDE     :PyCharm
@Author  :一晌小贪欢
@Date    :2024/05/27 17:00
'''import json
import requests
from lxml import etreeurl = 'https://top.baidu.com/board?'
cookies = {'Cookie': '填写自己的Cookie',
}headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/103.0.0.0 Safari/537.36',}params = {
'spm': '1001.2014.3001.5482'
}res_data = requests.get(url=url, params=params, headers=headers, cookies=cookies)
res_data.encoding = "utf-8"
print(res_data.text)

在这里插入图片描述

2、通过返回数据发现适合利用lxml+xpath

  • 我们发现返回的数据是整个网页,其中每一个【文章标题】以及【文章链接】都在其中

  • 经过分析得到,所有的 【文章标题】以及【文章链接】都在如下的xpath中

  • //ul[@class="column_article_list"]//li//a【文章链接】
  • //ul[@class="column_article_list"]//li//div[@class="column_article_title"]//h2【文章标题】

3、进行Markdown语言拼接

  • 搞定!!

-在这里插入图片描述

文章名称链接
Python爬虫实战(实战篇)—16获取【百度热搜】数据—写入Ecel(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—15获取东方财富网股票数据—写入csv(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—14获取【巴黎圣母院新闻网(Notre Dame News)】新闻写入Word(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—13获取《人民网》【最新】【国内】【国际】写入Word(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—11—360翻译(附完整代码)点我进行跳转
爬虫模板(附完整代码+案例)点我进行跳转
Python爬虫实战(基础篇)—10获取故宫博物院—故宫壁纸(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—9获取某个城市天气(附完整代码)点我进行跳转
Python爬虫实战(进阶篇)—8获取TOP电影信息并存入Excel(附完整代码)点我进行跳转
Python爬虫实战(进阶篇)—7获取每日菜价(附完整代码)点我进行跳转
关于一些xpath定位小技巧(svg,img,g等元素的定位问题)点我进行跳转
Python爬虫实战(进阶篇)—6获取微某博信息(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—5获取xx小说(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—4获取古诗词给孩子学习(附完整代码)点我进行跳转
Python爬虫实战(高级篇)—3百度翻译网页版爬虫(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—2获取一首歌的歌词(附完整代码)点我进行跳转
Python爬虫实战(基础篇)—1获取微博TOP10热搜(附完整代码)点我进行跳转
Xpath定位同级、父级元、子级元素、最后一个元素点我进行跳转
Python+Fiddler爬取手机app1----配置(保姆级)点我进行跳转
Python控制selenium之谷歌驱动器切入iframe(内嵌框架)点我进行跳转
Python—selenium控制本地浏览器并获取网页数据点我进行跳转
python解决输入框支持输入多个单号(5000单)快速复制粘贴进去点我进行跳转
国税局验证码识别 & 识别不了我还不能input吗点我进行跳转
selenium之显示等待(等到某个元素出现后再继续执行)点我进行跳转

总结

  • 希望对初学者有帮助

  • 致力于办公自动化的小小程序员一枚

  • 希望能得到大家的【一个免费关注】!感谢

  • 求个 🤞 关注 🤞

  • 此外还有办公自动化专栏,欢迎大家订阅:Python办公自动化专栏

  • 求个 ❤️ 喜欢 ❤️

  • 此外还有爬虫专栏,欢迎大家订阅:Python爬虫基础专栏

  • 求个 👍 收藏 👍

  • 此外还有Python基础专栏,欢迎大家订阅:Python基础学习专栏


http://www.ppmy.cn/embedded/44103.html

相关文章

Go 项目如何打包在各个平台运行?

1 Windwos开发环境打包可执行文件 在Windows环境,我们可以将Golang的项目打包成不同平台的可执行文件。 1.1 打包Windows可执行文件 set GOOSwindows set GOARCHamd64 go build -o bin/app_win.exe1.2 打包Linux可执行文件 set GOOSlinux set GOARCHamd64 go …

Windows驱动开发系列文章一

文章目录 环境搭建如何调试实时调试非实时调试 环境搭建 基本上按照官方网站安装 VisualStudio/SDK/WDK 这些软件就可以了 详情请参考这个安装链接 如何调试 Windows 调试分为两种:一种是实时调试,一种是非实时调试 实时调试 这个就需要用到Microso…

【MySQL精通之路】SQL优化(1)-查询优化(5)-引擎条件下推

1 介绍 这种优化提高了无索引列和常量之间直接比较的效率。 在这种情况下,条件会“向下推”到存储引擎进行评估。此优化只能由NDB存储引擎使用。 对于NDB集群,这种优化可以消除在集群的数据节点和发布查询的MySQL服务器之间通过网络发送不匹配行的操作…

TG5032CGN TCXO 超高稳定10pin端子型适用于汽车动力转向控制器

TG5032CGN TCXO / VC-TCXO是一款应用广泛的晶振,具有超高稳定性,CMOS输出和使用晶体基振的削波正弦波输出形式。且有低相位噪声优势,是温补晶体振荡器(TCXO)和压控晶体振荡器(VCXO)结合的产物,具有TCXO和VCXO的共同优点&#xff0…

HTTP Basic Access Authentication Schema

HTTP Basic Access Authentication Schema 背景介绍流程安全缺陷参考 背景 本文内容大多基于网上其他参考文章及资料整理后所得,并非原创,目的是为了需要时方便查看。 介绍 HTTP Basic Access Authentication Schema,HTTP 基本访问认证模式…

Golang实现根据文件后缀删除文件和递归删除文件

概述 这个功能会非常强大,因为在日常工作中,我通常会遇到需要批量删除文件的场景,通过这个方法,再结合我的另一个 命令行开发框架,能够很轻松的开发出这个功能。 代码 package zdpgo_fileimport ("errors"…

Vue 实例

一、页面效果图 二、代码 <!DOCTYPE html> <html><head><meta charset"utf-8"><script src"../vue.js" type"text/javascript"></script><title>vue 实例</title></head><body>&l…

鲁教版七年级数学上册-笔记

文章目录 第一章 三角形1 认识三角形2 图形的全等3 探索三角形全等的条件4 三角形的尺规作图5 利用三角形全等测距离 第二章 轴对称1 轴对称现象2 探索轴对称的性质4 利用轴对称进行设计 第三章 勾股定理1 探索勾股定理2 一定是直角三角形吗3 勾股定理的应用举例 第四章 实数1 …