使用python爬取豆瓣网站?如何简单的爬取豆瓣网站?

news/2024/11/16 22:10:10/
1.对python爬虫的看法

首先说说我对python的看法,我的专业是大数据,我从事的工作是java开发,但是在工作之余,我对python又很感兴趣,因为我觉得python是一门很好的语言,第一:它可以用来爬取数据,也就是我今天要介绍的;第二:它可以用来做项目的后端搭建;第三:可以用来做数据分析,第四:它的语法比较简单,代码写起来也没有java语法那么严格。我觉得python做第二门兼职语言再好不过了。

2.爬取数据过程中的感想

有时候,我们爬取的数据是比较杂乱的,需要我们对数据进行清洗处理,去掉错误或者空值,如果我们用数据来进行研究,这是必经的过程。所以我们不仅要学会爬取数据,还要学会对爬取的数据进行处理,所以我觉得想要学习python这门语言,先学爬虫,在爬虫的基础上一边学数据处理。

3.本次爬取数据的所得
3.1第一次数据爬取

爬取数据三要素:获取网站信息,获取需要爬取数据的节点,将数据进行保存

3.2爬取数据的处理

由于第一次的数据爬取出来,格式上比较混乱,且如果要使用到数据的话,就得把有用的数据提取出来,因此进行数据处理并且重新进行保存是必要的,这里使用到了正则表达式(正则在数据处理和数据爬取中都是一个重要的存在)

总结
此代码只能用于爬取简单的数据,如果要爬取动态的数据或者是更多数据需要使用到多方面的东西=========================================================================

下面是一个固定的写法:用于确保某段代码只有在脚本作为主程序运行时才会执行,通常用于定义脚本的入口点。也就是说如果这个py文件被其他给引入了,他是不会执行这个里面的内容的

当 my_script.py 被直接运行时,__name__ 变量的值为 '__main__',因此 main() 函数会被调用。
当 my_script.py 被其他文件导入时,__name__ 变量的值为 'my_script',因此 main() 函数不会被调用。

python">if __name__ == '__main__':handle()

他提高了代码的复用性和可维护性,如果在该块中编写单元测试代码,这些测试代码只会在直接运行脚本时执行。


http://www.ppmy.cn/news/1531121.html

相关文章

性能优化与资源管理:优化Selenium脚本的执行效率,合理管理浏览器实例和系统资源

目录 引言 一、Selenium基础与常用方法 1.1 Selenium简介 1.2 Selenium基础用法 二、Selenium性能优化技巧 2.1 使用WebDriverWait实现显式等待 2.2 启用无头模式 2.3 设置合理的页面加载策略 2.4 禁用图片和JavaScript加载 2.5 优化元素定位 2.6 合理使用隐式等待和…

828华为云征文 | 在华为云X实例上安装部署企业Wiki知识分享平台的实践

目录 前言 1. 华为云X实例介绍 1.1 华为云Flexus云服务概述 1.2 Flexus云服务器X实例的特点 2. MM-Wiki知识分享平台介绍 2.1 什么是MM-Wiki 2.2 MM-Wiki的功能特点 3. 安装部署环境 4. MM-Wiki安装部署步骤 4.1 下载与准备工作 4.2 安装MM-Wiki 4.3 启动与运行 5…

使用 MongoDB 在 Spring Boot 中构建安全的 RBAC 系统

介绍 您是否曾经构建过应用程序,然后突然意识到需要以更精细的方式管理用户访问权限?也许您已经硬编码了一些管理检查或在整个代码库中分散了权限逻辑。相信我,我经历过这种情况,维护起来并不好玩。 这就是基于角色的访问控制 (…

Skyeye 云这几年的经历

前言 我是 17 年毕业的,之前也是在学校的实验室 (做开发的) 待了两年多时间,期间学了不少东西,学的东西也算是与时俱进了。最近两年也算是开源中国的常客了,每周都会保持自己项目的一个更新进度。 项目地址:skyeye-o…

如何进行SQL调优?

这只是粗略总结,之后会就各个模块详细说 SQL调优指南 SQL调优是面试中常见的问题,考察候选人对SQL性能优化的理解和掌握程度。有效的SQL调优可以显著提升系统性能和响应时间,以下是进行SQL调优的一些步骤和策略。 1. 问题发现 在调优之前…

前端框架对比和选择?

在选择前端框架时,考虑以下几个主流框架的特点和适用场景,可以帮助你做出明智的决策: 1. React 优点: 组件化:使得代码重用和维护更加容易。 虚拟DOM:提高了渲染性能。 强大的生态系统:丰富的…

使用php生成图片

可以用这方法生成图片 水印 字体可以在资源绑定下载,如果字体路径不对,则不会输出文字图片 public function generateImage($text,$id) { header("Cache-Control: no-cache, must-revalidate"); header("Expires: Mon, 26 Jul 1997 05:0…

ICM20948 DMP代码详解(46)

接前一篇文章:ICM20948 DMP代码详解(45) 上一回讲到了inv_icm20948_setup_compass_akm函数中的以下代码片段: /* Set compass in power down through I2C SLV for compass */result inv_icm20948_execute_write_secondary(s, COM…