前言

使用Python爬取指定电影的影评，
注意：本文仅用于学习交流，禁止用于盈利或侵权行为。

操作系统：windows10 家庭版
开发环境：Pycharm Conmunity 2022.3
解释器版本：Python3.8
第三方库：requests、bs4

第三方库的安装

需要安装 bs4 和 requests 库
你可以参考我的以下文章获取些许帮助：

Python第三方库安装——使用vscode、pycharm安装Python第三方库
Python中requests库使用方法详解

示例代码

#code:utf-8
import requests
from bs4 import BeautifulSoup
import time# 如果想多爬几页可以将16修改为更大的偶数
for i in range(2,16,2):url = 'https://movie.douban.com/subject/34841067/comments?start={}0&limit=20&status=P&sort=new_score'.format(i)headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/13.0.5 Safari/605.1.15'}# 请求r=requests.get(url, headers=headers)# 查看状态码print(r.status_code)# 获取标题html = BeautifulSoup(r.text,"html.parser")title = html.find("h1").text# 获取用户名、评论、评分divs = html.find_all("div", class_ = "comment")s = {"力荐":"❤❤❤❤❤","推荐":"❤❤❤❤❤","还行":"❤❤❤","较差":"❤❤","很差":"❤"}with open("{}.txt".format(title),"w+",encoding="utf-8") as f:f.write(str(["用户", "评分", "内容"]))for div in divs:print("---------------------------------")name = div.find("a", class_="").textprint("用户名：",name)content = div.find("span", class_="short").textprint("用户评论：",content)score = Nonefor i in range(1,6):try:score = s[div.find("span", class_="allstar{}0 rating".format(i))["title"]]except:continueif score == None:score = "用户未评分"print("评分：",score)print("[+]...{}的评论已爬取".format(name))f.write("\n")f.write(str([name,score,content]))f.close()