一、实现目标
python编写一个简易的爬虫程序,获取电影有史以来的电影评分最高的前250部电影的名称和评分,获取的数据存储到exce文件中。之后统计分析出哪些电影类型占比居多。
二、实现思路
1、找到电影评分Top250的页面
2、分析该网页的数据结构,找到要解析的数据在哪个位置,什么结构
3、分析每一页数据的url格式,找出规律,从而实现多页的爬取
4、编程实现,向目标网页发送请求,解析html数据,修改url,多页爬取。最后写入excel文件。
5、读取excel文件中的电影数据,统计分析出哪种类型占比更多,更受欢迎。
三、代码实现
1、导入需要使用到的库: