我采用了requests模块和Xpath。
关键点1:XPATH的分析和综合,xpath通过chrome浏览器复制,具体方法网上很多,这里不再赘述。以下是前3条电影名称的xpath:
-
//*[@id="content"]/div/div[1]/ol/li[1]/div/div[2]/div[1]/a/span[1]
-
//*[@id="content"]/div/div[1]/ol/li[2]/div/div[2]/div[1]/a/span[1]
-
//*[@id="content"]/div/div[1]/ol/li[3]/div/div[2]/div[1]/a/span[1]
观察发现li后面的数字随电影序号递增。至此规律找出,此外,要获得电影名称,需要在其后面加上/text()表示获取内容。
【补充点废话,电影名字还有英文名,甚至有另外一个中文名,其xpath的区别就是span后面的数字】
关键点2:如果没有headers,方法requests.get()很难成功。
我这里的headers是在网上随便复制了一个。网上有很多,有那种headers集,准确的说是user_agent 集。可以用来模拟不同浏览器访问某一个网址。我这里就只用了一个headers。没有报错。
废话少说,上代码(Python版本:3.8.2;系统:win10系统64位):
import requests
from lxml import etreeuser_agent = 'Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'
headers = { 'User-Agent' : user_agent }
for i in range(10):url = 'https://movie.douban.com/top250?start='+str(25*i)html = requests.get(url,headers=headers)etree_html = etree.HTML(html.text)for j in range(1,26):a = etree_html.xpath('//*[@id="content"]/div/div[1]/ol/li['+str(j)+']/div/div[2]/div[1]/a/span[1]/text()')print('No.'+str(25*i+j)+':'+a[0]+'\n')
运行结果:
No.1:肖申克的救赎
No.2:霸王别姬
No.3:阿甘正传
No.4:这个杀手不太冷
No.5:美丽人生
No.6:泰坦尼克号
No.7:千与千寻
No.8:辛德勒的名单
No.9:盗梦空间
No.10:忠犬八公的故事
No.11:海上钢琴师
No.12:楚门的世界
No.13:三傻大闹宝莱坞
No.14:机器人总动员
No.15:放牛班的春天
No.16:星际穿越
No.17:大话西游之大圣娶亲
No.18:熔炉
No.19:疯狂动物城
No.20:无间道
No.21:龙猫
No.22:教父
No.23:当幸福来敲门
No.24:怦然心动
No.25:触不可及
No.26:蝙蝠侠:黑暗骑士
No.27:控方证人
No.28:活着
No.29:乱世佳人
No.30:寻梦环游记
No.31:末代皇帝
No.32:摔跤吧!爸爸
No.33:指环王3:王者无敌
No.34:何以为家
No.35:少年派的奇幻漂流
No.36:飞屋环游记
No.37:十二怒汉
No.38:鬼子来了
No.39:天空之城
No.40:大话西游之月光宝盒
No.41:哈尔的移动城堡
No.42:素媛
No.43:天堂电影院
No.44:罗马假日
No.45:闻香识女人
No.46:辩护人
No.47:哈利·波特与魔法石
No.48:搏击俱乐部
No.49:我不是药神
No.50:死亡诗社
No.51:教父2
No.52:指环王2:双塔奇兵
No.53:狮子王
No.54:窃听风暴
No.55:大闹天宫
No.56:指环王1:魔戒再现
No.57:两杆大烟枪
No.58:美丽心灵
No.59:饮食男女
No.60:猫鼠游戏
No.61:飞越疯人院
No.62:黑客帝国
No.63:钢琴家
No.64:V字仇杀队
No.65:本杰明·巴顿奇事
No.66:看不见的客人
No.67:让子弹飞
No.68:西西里的美丽传说
No.69:小鞋子
No.70:海豚湾
No.71:拯救大兵瑞恩
No.72:情书
No.73:穿条纹睡衣的男孩
No.74:音乐之声
No.75:美国往事
No.76:绿皮书
No.77:致命魔术
No.78:海蒂和爷爷
No.79:低俗小说
No.80:七宗罪
No.81:沉默的羔羊
No.82:蝴蝶效应
No.83:春光乍泄
No.84:禁闭岛
No.85:被嫌弃的松子的一生
No.86:心灵捕手
No.87:布达佩斯大饭店
No.88:阿凡达
No.89:剪刀手爱德华
No.90:勇敢的心
No.91:摩登时代
No.92:天使爱美丽
No.93:喜剧之王
No.94:致命ID
No.95:加勒比海盗
No.96:断背山
No.97:杀人回忆
No.98:狩猎
No.99:幽灵公主
No.100:哈利·波特与死亡圣器(下)
No.101:请以你的名字呼唤我
No.102:阳光灿烂的日子
No.103:入殓师
No.104:重庆森林
No.105:第六感
No.106:小森林 夏秋篇
No.107:7号房的礼物
No.108:消失的爱人
No.109:红辣椒
No.110:小森林 冬春篇
No.111:爱在黎明破晓前
No.112:侧耳倾听
No.113:玛丽和马克思
No.114:一一
No.115:唐伯虎点秋香
No.116:告白
No.117:蝙蝠侠:黑暗骑士崛起
No.118:大鱼
No.119:阳光姐妹淘
No.120:倩女幽魂
No.121:超脱
No.122:射雕英雄传之东成西就
No.123:萤火之森
No.124:甜蜜蜜
No.125:驯龙高手
No.126:无人知晓
No.127:超能陆战队
No.128:幸福终点站
No.129:菊次郎的夏天
No.130:借东西的小人阿莉埃蒂
No.131:爱在日落黄昏时
No.132:恐怖直播
No.133:完美的世界
No.134:神偷奶爸
No.135:怪兽电力公司
No.136:玩具总动员3
No.137:风之谷
No.138:血战钢锯岭
No.139:功夫
No.140:傲慢与偏见
No.141:上帝之城
No.142:时空恋旅人
No.143:教父3
No.144:人生果实
No.145:电锯惊魂
No.146:喜宴
No.147:天书奇谭
No.148:谍影重重3
No.149:英雄本色
No.150:被解救的姜戈
No.151:岁月神偷
No.152:七武士
No.153:哪吒闹海
No.154:我是山姆
No.155:疯狂原始人
No.156:纵横四海
No.157:头号玩家
No.158:三块广告牌
No.159:心迷宫
No.160:萤火虫之墓
No.161:釜山行
No.162:达拉斯买家俱乐部
No.163:真爱至上
No.164:荒蛮故事
No.165:东邪西毒
No.166:贫民窟的百万富翁
No.167:记忆碎片
No.168:爆裂鼓手
No.169:你的名字。
No.170:黑天鹅
No.171:花样年华
No.172:卢旺达饭店
No.173:哈利·波特与阿兹卡班的囚徒
No.174:忠犬八公物语
No.175:黑客帝国3:矩阵革命
No.176:模仿游戏
No.177:头脑特工队
No.178:一个叫欧维的男人决定去死
No.179:雨人
No.180:你看起来好像很好吃
No.181:未麻的部屋
No.182:哈利·波特与密室
No.183:无敌破坏王
No.184:恋恋笔记本
No.185:冰川时代
No.186:海街日记
No.187:新世界
No.188:海边的曼彻斯特
No.189:二十二
No.190:虎口脱险
No.191:房间
No.192:恐怖游轮
No.193:惊魂记
No.194:魔女宅急便
No.195:奇迹男孩
No.196:人工智能
No.197:雨中曲
No.198:疯狂的石头
No.199:罗生门
No.200:海洋
No.201:爱在午夜降临前
No.202:小偷家族
No.203:终结者2:审判日
No.204:初恋这件小事
No.205:魂断蓝桥
No.206:燃情岁月
No.207:可可西里
No.208:穿越时空的少女
No.209:绿里奇迹
No.210:2001太空漫游
No.211:牯岭街少年杀人事件
No.212:完美陌生人
No.213:城市之光
No.214:无耻混蛋
No.215:阿飞正传
No.216:新龙门客栈
No.217:源代码
No.218:香水
No.219:谍影重重2
No.220:青蛇
No.221:地球上的星星
No.222:谍影重重
No.223:战争之王
No.224:血钻
No.225:猜火车
No.226:色,戒
No.227:遗愿清单
No.228:大佛普拉斯
No.229:疯狂的麦克斯4:狂暴之路
No.230:步履不停
No.231:彗星来的那一夜
No.232:朗读者
No.233:浪潮
No.234:小萝莉的猴神大叔
No.235:再次出发之纽约遇见你
No.236:聚焦
No.237:驴得水
No.238:东京物语
No.239:追随
No.240:一次别离
No.241:九品芝麻官
No.242:千钧一发
No.243:我爱你
No.244:黑鹰坠落
No.245:哈利·波特与火焰杯
No.246:四个春天
No.247:网络谜踪
No.248:发条橙
No.249:E.T. 外星人
No.250:黑客帝国2:重装上阵
欢迎使用Markdown编辑器
你好! 这是你第一次使用 **Mn编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。
新的改变
我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:
- 全新的界面设计 ,将会带来全新的写作体验;
- 在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示;
- 增加了 图片拖拽 功能,你可以将本地的图片直接拖拽到编辑区域直接展示;
- 全新的 KaTeX数学公式 语法;
- 增加了支持甘特图的mermaid语法1 功能;
- 增加了 多屏幕编辑 Markdown文章功能;
- 增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能,功能按钮位于编辑区域与预览区域中间;
- 增加了 检查列表 功能。
功能快捷键
撤销:Ctrl/Command + Z
重做:Ctrl/Command + Y
加粗:Ctrl/Command + B
斜体:Ctrl/Command + I
标题:Ctrl/Command + Shift + H
无序列表:Ctrl/Command + Shift + U
有序列表:Ctrl/Command + Shift + O
检查列表:Ctrl/Command + Shift + C
插入代码:Ctrl/Command + Shift + K
插入链接:Ctrl/Command + Shift + L
插入图片:Ctrl/Command + Shift + G
查找:Ctrl/Command + F
替换:Ctrl/Command + G
合理的创建标题,有助于目录的生成
直接输入1次#,并按下space后,将生成1级标题。
输入2次#,并按下space后,将生成2级标题。
以此类推,我们支持6级标题。有助于使用TOC
语法后生成一个完美的目录。
如何改变文本的样式
强调文本 强调文本
加粗文本 加粗文本
标记文本
删除文本
引用文本
H2O is是液体。
210 运算结果是 1024.
插入链接与图片
链接: link.
图片:
带尺寸的图片:
居中的图片:
居中并且带尺寸的图片:
当然,我们为了让用户更加便捷,我们增加了图片拖拽功能。
如何插入一段漂亮的代码片
去博客设置页面,选择一款你喜欢的代码片高亮样式,下面展示同样高亮的 代码片
.
// An highlighted block
var foo = 'bar';
生成一个适合你的列表
- 项目
- 项目
- 项目
- 项目
- 项目1
- 项目2
- 项目3
- 计划任务
- 完成任务
创建一个表格
一个简单的表格是这么创建的:
项目 | Value |
---|---|
电脑 | $1600 |
手机 | $12 |
导管 | $1 |
设定内容居中、居左、居右
使用:---------:
居中
使用:----------
居左
使用----------:
居右
第一列 | 第二列 | 第三列 |
---|---|---|
第一列文本居中 | 第二列文本居右 | 第三列文本居左 |
SmartyPants
SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如:
TYPE | ASCII | HTML |
---|---|---|
Single backticks | 'Isn't this fun?' | ‘Isn’t this fun?’ |
Quotes | "Isn't this fun?" | “Isn’t this fun?” |
Dashes | -- is en-dash, --- is em-dash | – is en-dash, — is em-dash |
创建一个自定义列表
- Markdown
- Text-to- HTML conversion tool Authors
- John
- Luke
如何创建一个注脚
一个具有注脚的文本。2
注释也是必不可少的
Markdown将文本转换为 HTML。
KaTeX数学公式
您可以使用渲染LaTeX数学表达式 KaTeX:
Gamma公式展示 Γ ( n ) = ( n − 1 ) ! ∀ n ∈ N \Gamma(n) = (n-1)!\quad\forall n\in\mathbb N Γ(n)=(n−1)!∀n∈N 是通过欧拉积分
Γ ( z ) = ∫ 0 ∞ t z − 1 e − t d t . \Gamma(z) = \int_0^\infty t^{z-1}e^{-t}dt\,. Γ(z)=∫0∞tz−1e−tdt.
你可以找到更多关于的信息 LaTeX 数学表达式here.
新的甘特图功能,丰富你的文章
- 关于 甘特图 语法,参考 这儿,
UML 图表
可以使用UML图表进行渲染。 Mermaid. 例如下面产生的一个序列图:
这将产生一个流程图。:
- 关于 Mermaid 语法,参考 这儿,
FLowchart流程图
我们依旧会支持flowchart的流程图:
- 关于 Flowchart流程图 语法,参考 这儿.
导出与导入
导出
如果你想尝试使用此编辑器, 你可以在此篇文章任意编辑。当你完成了一篇文章的写作, 在上方工具栏找到 文章导出 ,生成一个.md文件或者.html文件进行本地保存。
导入
如果你想加载一篇你写过的.md文件,在上方工具栏可以选择导入功能进行对应扩展名的文件导入,
继续你的创作。
mermaid语法说明 ↩︎
注脚的解释 ↩︎