CSDN统计个人创作总字数

devtools/2025/3/14 20:46:50/

前言

不是很懂爬虫,所以就叫deepseek写了一个


用起来很简单,但是有一个小问题,就是统计的是总字符数。代码片会被统计进去,Markdown语法也会被统计进去。


不过我没有太多需求,能大概统计一下满足以下小小的好奇心和成就感就行。如果有额外需求可以叫deepseek再改

代码

python">import requests
from bs4 import BeautifulSoup
import time
import random# 替换为你的CSDN博客主页URL
base_url = "https://blog.csdn.net/用户id/article/list/"# 设置请求头,模拟浏览器访问
headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36"
}# 获取博客文章列表
def get_article_links(base_url, headers):article_links = []page = 1while True:url = f"{base_url}{page}"response = requests.get(url, headers=headers)soup = BeautifulSoup(response.text, 'html.parser')# 查找所有文章的链接articles = soup.find_all('div', class_='article-item-box')if not articles:break  # 如果没有文章了,退出循环for article in articles:link = article.find('h4').find('a')['href']article_links.append(link)page += 1time.sleep(random.uniform(1, 3))  # 随机延迟,避免触发反爬虫return article_links# 统计文章字数
def count_words(article_links, headers):total_words = 0cnt = 0for link in article_links:try:# 随机延迟,避免触发反爬虫time.sleep(random.uniform(1, 3))# 获取文章内容article_response = requests.get(link, headers=headers)article_soup = BeautifulSoup(article_response.text, 'html.parser')# 查找文章正文部分(根据CSDN的HTML结构)content = article_soup.find('div', class_='markdown_views') or article_soup.find('article', class_='baidu_pl')if content:text = content.get_text(strip=True)  # 提取纯文本word_count = len(text)  # 统计字数(按字符数计算)total_words += word_countcnt += 1print(f"文章链接: {link}, 字数: {word_count} , 序号 : {cnt}")else:print(f"文章链接: {link}, 未找到正文内容")except Exception as e:print(f"文章链接: {link}, 抓取失败: {e}")return total_words# 获取所有文章的链接
article_links = get_article_links(base_url, headers)# 统计总字数
total_words = count_words(article_links, headers)
print(f"总字数: {total_words}")

用法

只需要把base_url = "https://blog.csdn.net/用户id/article/list/"这里的用户id替换成你的用户id就可以了


用户id在个人资料里查看


http://www.ppmy.cn/devtools/167107.html

相关文章

SSM视频点播系统

🍅点赞收藏关注 → 添加文档最下方联系方式咨询本源代码、数据库🍅 本人在Java毕业设计领域有多年的经验,陆续会更新更多优质的Java实战项目希望你能有所收获,少走一些弯路。🍅关注我不迷路🍅 项目视频 SS…

基于Python+Vue开发的电影订票管理系统源码+运行步骤

项目简介 该项目是基于PythonVue开发的电影订票管理系统(前后端分离),这是一项为大学生课程设计作业而开发的项目。该系统旨在帮助大学生学习并掌握Python编程技能,同时锻炼他们的项目设计与开发能力。通过学习基于Python的电影订…

k8s集群----helm部署wordpress

采用pv pvc模式 1、配置nfs存储 yum -y install nfs-utils cat /etc/exports cat /etc/exports /nfs/data/wordpress 192.168.0.0/24(rw,sync,no_subtree_check,no_root_squash) /nfs/data/mariadb 192.168.0.0/24(rw,sync,no_subtree_check,no_root_squash)systemctl rest…

ArcGIS Pro字段编号相关代码

一、引言 在地理信息系统(GIS)的数据管理与分析中,字段操作是不可或缺的一环。 SHP文件作为常见的地理数据存储格式,其字段的灵活运用对于数据的组织、展示和分析具有重要意义。 在实际工作中,常常需要对字段进行编…

使用DeepSeek完成一个简单嵌入式开发

开启DeepSeek对话 请帮我使用Altium Designer设计原理图、PCB,使用keil完成代码编写;要求:使用stm32F103RCT6为主控芯片,控制3个流水灯的原理图 这里需要注意,每次DeepSeek的回答都不太一样。 DeepSeek回答 以下是使…

如何在Futter开发中做性能优化?

目录 1. 避免不必要的Widget重建 问题:频繁调用setState()导致整个Widget树重建。 优化策略: 2. 高效处理长列表 问题:ListView一次性加载所有子项导致内存暴涨。 优化策略: 3. 图片加载优化 问题:加载高分辨率…

TTP/HTTPS、TCP/IP 协议、RPC、Socket 通信机制

1. TTP/HTTPS TTP (HTTP) 和 HTTPS(Hypertext Transfer Protocol Secure)是基于 TCP/IP 协议的应用层协议,主要用于客户端和服务器之间的数据传输。 HTTP(超文本传输协议):这是用于 web 页面和服务器之间…

CES Asia2025新机制引关注,科技创新奖申报火热

随着2025第七届亚洲消费电子技术贸易展(赛逸展)“展位即门票”机制的推出,科技创新奖的申报工作也正式拉开帷幕。截至目前,已有数十家企业提交了申报材料,涵盖人工智能、物联网、智能硬件等多个热门领域。 据了解…