我的第一个博客:爬取豆瓣top250电影名

news/2024/11/18 8:35:39/

我采用了requests模块和Xpath。
关键点1:XPATH的分析和综合,xpath通过chrome浏览器复制,具体方法网上很多,这里不再赘述。以下是前3条电影名称的xpath:

  1.  //*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]
    
  2.  //*[@id="content"]/div/div[1]/ol/li[2]/div/div[2]/div[1]/a/span[1]
    
  3.  //*[@id="content"]/div/div[1]/ol/li[3]/div/div[2]/div[1]/a/span[1]
    

观察发现li后面的数字随电影序号递增。至此规律找出,此外,要获得电影名称,需要在其后面加上/text()表示获取内容。
【补充点废话,电影名字还有英文名,甚至有另外一个中文名,其xpath的区别就是span后面的数字】

关键点2:如果没有headers,方法requests.get()很难成功。
我这里的headers是在网上随便复制了一个。网上有很多,有那种headers集,准确的说是user_agent 集。可以用来模拟不同浏览器访问某一个网址。我这里就只用了一个headers。没有报错。

废话少说,上代码(Python版本:3.8.2;系统:win10系统64位):


import requests
from lxml import etreeuser_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent }
for i in range(10):url = 'https://movie.douban.com/top250?start='+str(25*i)html = requests.get(url,headers=headers)etree_html = etree.HTML(html.text)for j in range(1,26):a = etree_html.xpath('//*[@id="content"]/div/div[1]/ol/li['+str(j)+']/div/div[2]/div[1]/a/span[1]/text()')print('No.'+str(25*i+j)+':'+a[0]+'\n')

运行结果:
No.1:肖申克的救赎

No.2:霸王别姬

No.3:阿甘正传

No.4:这个杀手不太冷

No.5:美丽人生

No.6:泰坦尼克号

No.7:千与千寻

No.8:辛德勒的名单

No.9:盗梦空间

No.10:忠犬八公的故事

No.11:海上钢琴师

No.12:楚门的世界

No.13:三傻大闹宝莱坞

No.14:机器人总动员

No.15:放牛班的春天

No.16:星际穿越

No.17:大话西游之大圣娶亲

No.18:熔炉

No.19:疯狂动物城

No.20:无间道

No.21:龙猫

No.22:教父

No.23:当幸福来敲门

No.24:怦然心动

No.25:触不可及

No.26:蝙蝠侠:黑暗骑士

No.27:控方证人

No.28:活着

No.29:乱世佳人

No.30:寻梦环游记

No.31:末代皇帝

No.32:摔跤吧!爸爸

No.33:指环王3:王者无敌

No.34:何以为家

No.35:少年派的奇幻漂流

No.36:飞屋环游记

No.37:十二怒汉

No.38:鬼子来了

No.39:天空之城

No.40:大话西游之月光宝盒

No.41:哈尔的移动城堡

No.42:素媛

No.43:天堂电影院

No.44:罗马假日

No.45:闻香识女人

No.46:辩护人

No.47:哈利·波特与魔法石

No.48:搏击俱乐部

No.49:我不是药神

No.50:死亡诗社

No.51:教父2

No.52:指环王2:双塔奇兵

No.53:狮子王

No.54:窃听风暴

No.55:大闹天宫

No.56:指环王1:魔戒再现

No.57:两杆大烟枪

No.58:美丽心灵

No.59:饮食男女

No.60:猫鼠游戏

No.61:飞越疯人院

No.62:黑客帝国

No.63:钢琴家

No.64:V字仇杀队

No.65:本杰明·巴顿奇事

No.66:看不见的客人

No.67:让子弹飞

No.68:西西里的美丽传说

No.69:小鞋子

No.70:海豚湾

No.71:拯救大兵瑞恩

No.72:情书

No.73:穿条纹睡衣的男孩

No.74:音乐之声

No.75:美国往事

No.76:绿皮书

No.77:致命魔术

No.78:海蒂和爷爷

No.79:低俗小说

No.80:七宗罪

No.81:沉默的羔羊

No.82:蝴蝶效应

No.83:春光乍泄

No.84:禁闭岛

No.85:被嫌弃的松子的一生

No.86:心灵捕手

No.87:布达佩斯大饭店

No.88:阿凡达

No.89:剪刀手爱德华

No.90:勇敢的心

No.91:摩登时代

No.92:天使爱美丽

No.93:喜剧之王

No.94:致命ID

No.95:加勒比海盗

No.96:断背山

No.97:杀人回忆

No.98:狩猎

No.99:幽灵公主

No.100:哈利·波特与死亡圣器(下)

No.101:请以你的名字呼唤我

No.102:阳光灿烂的日子

No.103:入殓师

No.104:重庆森林

No.105:第六感

No.106:小森林 夏秋篇

No.107:7号房的礼物

No.108:消失的爱人

No.109:红辣椒

No.110:小森林 冬春篇

No.111:爱在黎明破晓前

No.112:侧耳倾听

No.113:玛丽和马克思

No.114:一一

No.115:唐伯虎点秋香

No.116:告白

No.117:蝙蝠侠:黑暗骑士崛起

No.118:大鱼

No.119:阳光姐妹淘

No.120:倩女幽魂

No.121:超脱

No.122:射雕英雄传之东成西就

No.123:萤火之森

No.124:甜蜜蜜

No.125:驯龙高手

No.126:无人知晓

No.127:超能陆战队

No.128:幸福终点站

No.129:菊次郎的夏天

No.130:借东西的小人阿莉埃蒂

No.131:爱在日落黄昏时

No.132:恐怖直播

No.133:完美的世界

No.134:神偷奶爸

No.135:怪兽电力公司

No.136:玩具总动员3

No.137:风之谷

No.138:血战钢锯岭

No.139:功夫

No.140:傲慢与偏见

No.141:上帝之城

No.142:时空恋旅人

No.143:教父3

No.144:人生果实

No.145:电锯惊魂

No.146:喜宴

No.147:天书奇谭

No.148:谍影重重3

No.149:英雄本色

No.150:被解救的姜戈

No.151:岁月神偷

No.152:七武士

No.153:哪吒闹海

No.154:我是山姆

No.155:疯狂原始人

No.156:纵横四海

No.157:头号玩家

No.158:三块广告牌

No.159:心迷宫

No.160:萤火虫之墓

No.161:釜山行

No.162:达拉斯买家俱乐部

No.163:真爱至上

No.164:荒蛮故事

No.165:东邪西毒

No.166:贫民窟的百万富翁

No.167:记忆碎片

No.168:爆裂鼓手

No.169:你的名字。

No.170:黑天鹅

No.171:花样年华

No.172:卢旺达饭店

No.173:哈利·波特与阿兹卡班的囚徒

No.174:忠犬八公物语

No.175:黑客帝国3:矩阵革命

No.176:模仿游戏

No.177:头脑特工队

No.178:一个叫欧维的男人决定去死

No.179:雨人

No.180:你看起来好像很好吃

No.181:未麻的部屋

No.182:哈利·波特与密室

No.183:无敌破坏王

No.184:恋恋笔记本

No.185:冰川时代

No.186:海街日记

No.187:新世界

No.188:海边的曼彻斯特

No.189:二十二

No.190:虎口脱险

No.191:房间

No.192:恐怖游轮

No.193:惊魂记

No.194:魔女宅急便

No.195:奇迹男孩

No.196:人工智能

No.197:雨中曲

No.198:疯狂的石头

No.199:罗生门

No.200:海洋

No.201:爱在午夜降临前

No.202:小偷家族

No.203:终结者2:审判日

No.204:初恋这件小事

No.205:魂断蓝桥

No.206:燃情岁月

No.207:可可西里

No.208:穿越时空的少女

No.209:绿里奇迹

No.210:2001太空漫游

No.211:牯岭街少年杀人事件

No.212:完美陌生人

No.213:城市之光

No.214:无耻混蛋

No.215:阿飞正传

No.216:新龙门客栈

No.217:源代码

No.218:香水

No.219:谍影重重2

No.220:青蛇

No.221:地球上的星星

No.222:谍影重重

No.223:战争之王

No.224:血钻

No.225:猜火车

No.226:色,戒

No.227:遗愿清单

No.228:大佛普拉斯

No.229:疯狂的麦克斯4:狂暴之路

No.230:步履不停

No.231:彗星来的那一夜

No.232:朗读者

No.233:浪潮

No.234:小萝莉的猴神大叔

No.235:再次出发之纽约遇见你

No.236:聚焦

No.237:驴得水

No.238:东京物语

No.239:追随

No.240:一次别离

No.241:九品芝麻官

No.242:千钧一发

No.243:我爱你

No.244:黑鹰坠落

No.245:哈利·波特与火焰杯

No.246:四个春天

No.247:网络谜踪

No.248:发条橙

No.249:E.T. 外星人

No.250:黑客帝国2:重装上阵

欢迎使用Markdown编辑器

你好! 这是你第一次使用 **Mn编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。

新的改变

我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:

  1. 全新的界面设计 ,将会带来全新的写作体验;
  2. 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
  3. 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
  4. 全新的 KaTeX数学公式 语法;
  5. 增加了支持甘特图的mermaid语法1 功能;
  6. 增加了 多屏幕编辑 Markdown文章功能;
  7. 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
  8. 增加了 检查列表 功能。

功能快捷键

撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G

合理的创建标题,有助于目录的生成

直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

删除文本

引用文本

H2O is是液体。

210 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片: Alt

居中的图片: Alt

居中并且带尺寸的图片: Alt

当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

  • 项目
    • 项目
      • 项目
  1. 项目1
  2. 项目2
  3. 项目3
  • 计划任务
  • 完成任务

创建一个表格

一个简单的表格是这么创建的:

项目Value
电脑$1600
手机$12
导管$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列第二列第三列
第一列文本居中第二列文本居右第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:

TYPEASCIIHTML
Single backticks'Isn't this fun?'‘Isn’t this fun?’
Quotes"Isn't this fun?"“Isn’t this fun?”
Dashes-- is en-dash, --- is em-dash– is en-dash, — is em-dash

创建一个自定义列表

Markdown
Text-to- HTML conversion tool
Authors
John
Luke

如何创建一个注脚

一个具有注脚的文本。2

注释也是必不可少的

Markdown将文本转换为 HTML

KaTeX数学公式

您可以使用渲染LaTeX数学表达式 KaTeX:

Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n1)!nN 是通过欧拉积分

Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=0tz1etdt.

你可以找到更多关于的信息 LaTeX 数学表达式here.

新的甘特图功能,丰富你的文章

Mon 06 Mon 13 Mon 20 已完成 进行中 计划一 计划二 现有任务 Adding GANTT diagram functionality to mermaid
  • 关于 甘特图 语法,参考 这儿,

UML 图表

可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:

张三 李四 王五 你好!李四, 最近怎么样? 你最近怎么样,王五? 我很好,谢谢! 我很好,谢谢! 李四想了很长时间, 文字太长了 不适合放在一行. 打量着王五... 很好... 王五, 你怎么样? 张三 李四 王五

这将产生一个流程图。:

链接
长方形
圆角长方形
菱形
  • 关于 Mermaid 语法,参考 这儿,

FLowchart流程图

我们依旧会支持flowchart的流程图:

Created with Raphaël 2.2.0 开始 我的操作 确认? 结束 yes no
  • 关于 Flowchart流程图 语法,参考 这儿.

导出与导入

导出

如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。

导入

如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。


  1. mermaid语法说明 ↩︎

  2. 注脚的解释 ↩︎


http://www.ppmy.cn/news/754104.html

相关文章

【2】Matplotlib

2-1Matplotlib介绍与安装 什么是Matplotlib Matplotlib是一个Python的基础绘图库,它可与 NumPy 一起使用,代替Matlab使用。 为什么要学习Matplotlib 将数据进行可视化,使数据更直观使数据更加更具有说服力 Matplotlib安装 由于Matplotl…

学了Python基础,苦于无法上手实战,看这本

Python语言能让编程变得更加简单易学。但是,在掌握Python基础知识后,你是否面临编程技能无法提升,不知后续学习该如何开展的问题?《Python编程实战 妙趣横生的项目之旅》包含许多有趣的编程实践项目,这些项目能带给你灵…

太阳系外宜居星球

宜居星球 与太阳系外宜居星球相关的信息屡屡见诸报端。 除Gliese 667C的行星外,还有4颗行星是热门候选: Gliese 581g,2010年9月宣布发现,是一颗岩态行星, 距离地球大约20光年,公转周期大约30天,…

自动形式化与通用人工智能:Google Research 2020年报告

原论文:A Promising Path Towards Autoformalization and General Artificial Intelligence https://doi.org/10.1007/978-3-030-53518-6_1 选自论文集 Intelligent Computer Mathematics 13th International Conference, CICM 2020 作者Christian Szegedy是超级巨佬…

计算机美术设计基础教案,电脑美术美术教案

本节课进步的地方:1、在设计中体现了综合性和多样性,在美术教学中融入了音乐,还准备在以后教学中融入电脑教学,运用计算机的绘图软件绘画。2、在课件的制作中对音乐和图片的选择有较强的视觉和听觉冲击力。3、在语言讲解上较以前精练简洁。4、…

VQA: Visual Question Answering 视觉问答

论文:Antol S, Agrawal A, Lu J, et al. Vqa: Visual question answering[C]//Proceedings of the IEEE international conference on computer vision. 2015: 2425-2433. 摘要 我们提出了一个自由式和开放式的视觉问答(VQA)任务。通过给定…

芭比Q了,AI已经具备人格,机器人要发起「人机大战」

近日,日本东京大学发布在《物质》杂志上的一项研究引发了「舆论地震」。 科学家在机器人手指上制作出了活体人类皮肤,该人皮不仅有真人皮肤般的纹理,而且还能防水,更神奇的是能「自愈」。 日本东京大学「机器人身上的活体皮肤」 …

03-Matplotlib数据可视化

Matplotlib介绍与安装 Matplotlib介绍 什么是Matplotlib Matplotlib是一个Python的绘图库,它可与 NumPy 一起使用,可以代替Matlab使用。 为什么要学习Matplotlib 1、将数据进行可视化,使数据更直观 2、是数据更加具有说服力 Matplotlib安装 由于Matplotlib是第三方库,…