爬取链家二手房房价数据存入mongodb并进行分析

ops/2024/11/22 23:32:57/
感谢您的关注!需要完整源码评论区获取~
【实验目的】
1. 使用 python爬虫数据存入 mongodb
2. 使用 python 读取 mongodb 数据并进行可视化分析。
【实验原理】
       MongoDB 是文档数据库,采用 BSON 的结构来存储数据。在文档中可嵌套其他文档
类型,使得 MongoDB 具有很强的数据描述能力。本节案例使用的数据为链家的租房信
息,源数据来自于链家网站,所以首先要获取网页数据并解析出本案例所需要的房源信
息,然后将解析后的数据存储到 MongoDB 中,最后基于这些数据进行城市租房信息的
查询和聚合分析等。
【实验环境】
        OS:Ubuntu16.04
        Python3
        MongoDB:v3.6
【实验步骤】
        一:使用 python爬虫数据存入 mongodb
        分析租房信息首先要获取原始的房源数据,本例使用 python 爬虫技术获取链家网页
的新房楼盘信息。如图所示,对房源信息进行分析需要获取房源所在区域、小区名、房
型、面积、具体位置、价格等信息。
        

分析数据:

执行loupanAnaly.py文件:

mongo shell终端 数据分析

(1)求每个区域的平均房价和最高房价:

(2)查找所有住宅区域的平均房价:

(3)查看某个特定区域的所有房价信息

(4)查找某个区域的最大房价:

(5)按区域统计房源数量

(6)找出最贵的房源信息

(7)区域房价的分布(价格区间统计)

(8)按楼盘开发商统计房源均价

(9)统计每个区域的房价标准差


http://www.ppmy.cn/ops/135921.html

相关文章

springboot中设计基于Redisson的分布式锁注解

如何使用AOP设计一个分布式锁注解&#xff1f; 1、在pom.xml中配置依赖 <dependency><groupId>org.springframework</groupId><artifactId>spring-aspects</artifactId><version>5.3.26</version></dependency><dependenc…

mysql的my.cnf配置文件参数说明

mysql的my.cnf配置文件参数说明 mysql的my.cnf配置文件参数说明&#xff0c;对于my.cnf的相关详细配置的参数说明和参数的常规配置 [mysqld] # ------------主要配置----------------- # 端口 port 3306# 数据地址 datadir/var/lib/mysql socket/var/lib/mysql/mysql.sock# …

【Python · PyTorch】卷积神经网络 CNN(LeNet-5网络)

【Python PyTorch】卷积神经网络 CNN&#xff08;LeNet-5网络&#xff09; 1. LeNet-5网络※ LeNet-5网络结构 2. 读取数据2.1 Torchvision读取数据2.2 MNIST & FashionMNIST 下载解包读取数据 2. Mnist※ 训练 LeNet5 预测分类 3. EMnist※ 训练 LeNet5 预测分类 4. Fash…

一文了解js 的正则

文章目录 正则基础正则应用正则性能优化特殊含义?.? 正则基础 一、正则表达式基础知识 什么是正则表达式&#xff1f; 正则表达式是一种用于匹配字符串中字符组合的模式。在JavaScript中&#xff0c;正则表达式是对象。它就像一个模板&#xff0c;可以帮助你在文本中查找、替…

Python设计模式详解之5 —— 原型模式

Prototype 设计模式是一种创建型设计模式&#xff0c;它通过复制已有的实例来创建新对象&#xff0c;而不是通过从头实例化。这种模式非常适合对象的创建成本较高或者需要避免复杂的构造过程时使用。Prototype 模式提供了一种通过克隆来快速创建对象的方式。 1. Prototype 模式…

java 可以跨平台的原因是什么?

我们对比一个东西就可以了&#xff0c;那就是chrome浏览器。 MacOS/Linux/Windows上的Chrome浏览器&#xff0c;那么对于HTML/CSS/JS的渲染效果都一样的。 我们就可以认为ChromeHTML/CSS/JS是跨平台的。 这里面&#xff0c;HTML/CSS/JS是不变的的&#xff0c;对于一个网页&a…

OSG开发笔记(三十三):同时观察物体不同角度的多视图从相机技术

​若该文为原创文章&#xff0c;未经允许不得转载 本文章博客地址&#xff1a;https://blog.csdn.net/qq21497936/article/details/143932273 各位读者&#xff0c;知识无穷而人力有穷&#xff0c;要么改需求&#xff0c;要么找专业人士&#xff0c;要么自己研究 长沙红胖子Qt…

SAM阅读

文章内容&#xff1a; 介绍了 Segment Anything &#xff08;SA&#xff09; 项目&#xff1a;用于图像分割的新任务、模型和数据集。 我们构建了迄今为止&#xff08;迄今为止&#xff09;最大的分割数据集&#xff0c;在 11M 许可和尊重隐私的图像上拥有超过 10 亿个掩码。该…