python手写了个简易的豆瓣影评爬虫

news/2024/9/18 7:26:55/ 标签: python, 爬虫, 开发语言

使用python手写了个简易的豆瓣影评爬虫代码。

python">__author__ = 'wsx'import time
import requests
from bs4 import BeautifulSoup
import os
import re
import uuiddef clean_windows_filename(string_file_name):invalid_chars = r'[\\/:*?"<>|]'return re.sub(invalid_chars, '', string_file_name)
class Mz:def __init__(self):# self.url = 'http://www.mzitu.com'# self.headers = {#     'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36',#     'Referer': 'http://www.mzitu.com/'# }self.url = 'https://nj9.net/id/'self.headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/60.0.3112.113 Safari/537.36','Referer': 'https://nj9.net'}self.proxy_list = {'http': 'http://47.56.110.204:8989','https': 'https://65.109.204.150:80'}self.req = requests.session()self.all_a = 5000self.all_a_title = []self.all_a_max = []try:os.makedirs(os.path.join(os.getcwd(), 'douban'))os.chdir(os.path.join(os.getcwd(), 'douban'))except OSError as e:# 处理其他类型的错误print("已存在文件,跳过创建文件!")finally:self.initpwd = os.getcwd()def contains_unfound(s):return "未找到" in sdef Downloadimg2(self):nurl = "https://movie.douban.com/subject/36328210/comments"html = self.req.get(nurl, headers=self.headers)title = BeautifulSoup(html.text, 'lxml').find('h1').text# 定义不允许的字符invalid_chars = '<>:"/\\|?*'# 使用正则表达式替换所有不允许的字符为空字符串sanitized = re.sub(f'[{re.escape(invalid_chars)}]', '', title)if "未找到" in title:print("未找到")else:try:os.makedirs(os.path.join(os.getcwd(), sanitized))except OSError as e:# 处理其他类型的错误print(title + "已存在文件,跳过创建文件!")finally:os.chdir(os.path.join(os.getcwd(), sanitized))shortUrl = BeautifulSoup(html.content, 'lxml')# 查找所有的<img>标签short_tags = shortUrl.find_all('span', class_='short')# 获取每个<img>标签的src属性all_short = [short.text for short in short_tags]# 打印获取到的所有短评for short in all_short:print(short)# 打开文件并写入文本txt_url = os.getcwd() + "\\" + sanitized+str(".txt")with open(txt_url, 'a', encoding='utf-8') as file:file.write(short)file.write("\n\n")os.chdir(self.initpwd)print('Dowmload completed!')if __name__ == '__main__':test = Mz()test.Downloadimg2()

备注:如果需要其他电影评论,需替换代码中nurl ;


http://www.ppmy.cn/news/1516508.html

相关文章

ZooKeeper 的特性及其在分布式系统中的配置中心的应用

以下是配置管理和服务注册的实现方式&#xff1a; 1. 配置管理 配置管理指的是将系统中各个组件的配置信息集中管理&#xff0c;以便动态更新和统一配置。ZooKeeper 可以用来管理配置文件&#xff0c;通过它的节点结构和数据一致性功能&#xff0c;确保所有客户端都能获得最新…

PIL convert(‘RGB‘) 用法

PIL 不提供 BGR转RGB的方法。 1. 图像模式转换 如果图像当前的模式不是 RGB&#xff0c;例如它是灰度&#xff08;L&#xff09;、CMYK 或其他模式时&#xff0c;convert(RGB) 会将图像转换为 RGB 格式。 灰度图像 (L)&#xff1a; 如果图像是灰度图像 (L)&#xff0c;conver…

【机器学习工具库-一-传统机器学习sklearn库】

sklearn库 安装安装顺序 sklearn库的六大功能sklearn中的核心调用流程 sklearn库是用于机器学习一个工具包&#xff0c;有了它&#xff0c;可以帮我们用简单的函数实现传统机器学习中的分类、聚类等任务。 安装 sklearn的官网 http://scikit-learn.org/stable/ sklearn库基于N…

【C++ 面试 - 内存管理】每日 3 题(二)

✍个人博客&#xff1a;Pandaconda-CSDN博客 &#x1f4e3;专栏地址&#xff1a;http://t.csdnimg.cn/fYaBd &#x1f4da;专栏简介&#xff1a;在这个专栏中&#xff0c;我将会分享 C 面试中常见的面试题给大家~ ❤️如果有收获的话&#xff0c;欢迎点赞&#x1f44d;收藏&…

Django后端架构开发:Nginx服务优化实践

Django后端架构开发&#xff1a;Nginx服务优化实践 目录 &#x1f31f; Nginx核心概念&#x1f50d; Nginx服务原理&#x1f504; Nginx负载均衡&#x1f517; Nginx反向代理⚙️ Nginx动静分离 &#x1f31f; Nginx核心概念 Nginx作为一款轻量级且功能强大的HTTP服务器&…

分布式性能测试-通篇讲解 Locust 性能测试

分布式性能测试-小试牛刀 Locust 分布式负载生成概述 Locust 支持分布式负载生成,以模拟更高的并发负载。你可以通过以下方式来配置和使用分布式模式: 1. 基本概念 Master 实例:管理整个负载测试,运行 Locust 的 Web 界面,并协调各个 Worker 的任务。Worker 实例:实际…

思特威-秋招正式批-笔试

1.在全局数据区中分配空间的变量类型有哪些 2.new和malloc的区别 3. class CData{unsigned short m_uilndex, m_uilndexFlag 9; int m_iData[10]; int m_iType;int iGetDataType() {return m_iType;} public: CData(); }CData::CData(), m_iType(5) {string strTxt "…

【算法模板】基础:区间合并

区间合并是一种常见的算法问题&#xff0c;通常在处理范围覆盖、时间调度、区间覆盖等问题时会用到。区间合并的目的是将一些有重叠或相邻的区间合并成一个更大的区间&#xff0c;从而简化问题的复杂性。 算法思想 给定一组区间&#xff0c;可能存在部分区间之间有重叠或相邻关…

你是如何克服编程学习中的挫折感的?——从Bug中找到成长的契机

你是如何克服编程学习中的挫折感的&#xff1f; 从Bug中找到成长的契机 在编程的世界里&#xff0c;Bug 是不可避免的。无论是初学者还是经验丰富的开发者&#xff0c;都不可能完全避免 Bug 的出现。与其视 Bug 为敌人&#xff0c;不如将其看作成长的契机。每一个 Bug 的出现&…

虚幻5|简单的设置角色受到伤害,远程攻击机关设置,制作UI,低血量UI

虚幻5|制作玩家血量&#xff0c;体力&#xff08;还未编辑&#xff0c;只用于引用&#xff09;-CSDN博客 需完成制作玩家血量及体力部分 一.给角色添加死亡动画 1.为了保证角色在播放死亡蒙太奇的时候&#xff0c;不会重新播放&#xff0c;而是保持原来倒地的姿势&#xff0…

《黑神话·悟空》是用什么编程语言开发的?

最近火爆全球的国产 3A 大作《黑神话悟空》&#xff0c;你玩了吗&#xff1f;没玩没关系&#xff0c;有人就是对游戏不感冒&#xff0c;我找了个宣发片&#xff0c;一起感受下3A大作的视觉冲击&#xff0c;而且还是我们从小听到大&#xff0c;那猴子&#x1f412;的故事。 ‌‌…

Scrum 敏捷模型、软件测试

三个角色和五大重要会议 三个角色&#xff1a;产品经理、项目经理、研发团队 五个重要会议&#xff1a;需求发布会议、计划发布会议、每日会议、演示会议 每日会议&#xff1a;昨天做了什么&#xff08; 进度&#xff09;、今天做了什么&#xff08;有目标&#xff09;、遇到…

Objective-C中的MVC架构:构建清晰、可维护的iOS应用

标题&#xff1a;Objective-C中的MVC架构&#xff1a;构建清晰、可维护的iOS应用 在iOS开发中&#xff0c;MVC&#xff08;Model-View-Controller&#xff09;架构模式是一种经典的设计模式&#xff0c;用于分离应用的业务逻辑、用户界面和控制逻辑&#xff0c;以提高代码的可…

Flutter-自适用高度PageView

需求 在 Flutter 中&#xff0c;PageView 是一个非常常用的组件&#xff0c;能够实现多个页面的滑动切换。然而&#xff0c;默认的 PageView 高度是固定的&#xff0c;这在展示不同高度的页面时&#xff0c;可能会导致不必要的空白或内容裁剪问题。为了使 PageView 能够根据每…

云计算环境下的等保测评要点分析

在云计算环境下进行等保测评时&#xff0c;需要关注以下几个关键点&#xff1a; 安全责任共担模型&#xff1a;明确云服务提供商&#xff08;CSP&#xff09;与云服务用户&#xff08;CSU&#xff09;之间的安全责任划分&#xff0c;确保双方在安全防护上的协同作用。 安全控制…

【笛卡尔积】深入理解笛卡尔积及其在SQL中的应用

文章目录 引言笛卡尔积的定义数学背景SQL 中的笛卡尔积 SQL 示例基础示例复杂示例使用 WHERE子句限制结果集 笛卡尔积的实际应用笛卡尔积的性能考虑性能影响 更多相关内容可查看 在一个阳光明媚的周一清晨&#xff0c;听到这个词汇突然觉得有点陌生才有了此文的诞生 引言 在数…

33. 二叉搜索树的后序遍历序列【难】

comments: true difficulty: 中等 edit_url: https://github.com/doocs/leetcode/edit/main/lcof/%E9%9D%A2%E8%AF%95%E9%A2%9833.%20%E4%BA%8C%E5%8F%89%E6%90%9C%E7%B4%A2%E6%A0%91%E7%9A%84%E5%90%8E%E5%BA%8F%E9%81%8D%E5%8E%86%E5%BA%8F%E5%88%97/README.md 面试题 33. 二…

破晓科技与神话:三防平板与《黑神话:悟空》的创新交响

当全球游戏圈因《黑神话&#xff1a;悟空》的震撼预告而沸腾&#xff0c;一款代表中国游戏顶尖制作水平的作品&#xff0c;正以它独特的文化魅力与技术创新&#xff0c;向世界宣告着中国游戏产业的崛起。 点击添加图片描述&#xff08;最多60个字&#xff09;编辑 震撼视觉体验…

nginx正向代理与反向代理功能

Nginx是一款高性能的HTTP和反向代理服务器&#xff0c;同时也是一个IMAP/POP3/SMTP代理服务器。它的正向代理和反向代理功能在实际工作中有广泛的应用。 正向代理 功能 正向代理是位于客户端和原始服务器之间的代理服务器。客户端&#xff08;例如浏览器&#xff09;向代理服…

记录一个iOS工程添加文件的问题

遇到一个紧急问题&#xff0c;将工程copy了一份&#xff0c;然后需要将copy工程的一个文件夹 拖到现有的工程里面&#xff0c;由于事情紧急&#xff0c;就直接从工程目录中拖拽文件夹&#xff0c; 如下图 拖过之后&#xff0c;本地项目能跑了&#xff0c;但是远端自动化构建是…