Python案例题目,入门小白题

news/2024/11/14 12:41:08/

1.抓取链家前十页的数据

链家网址:长沙房产网_长沙房地产_长沙房产门户(长沙链家网)

1.1.计算均价和总价

python">import time
​
from selenium import webdriver
from selenium.webdriver.common.by import By
​
driver = webdriver.Chrome()
driver.get("https://cs.lianjia.com/zufang/rs岳麓区/")
​
# 总价
total = 0
# 记录房间个数
size = 0
​
for i in range(2):elements = driver.find_elements(By.CSS_SELECTOR, '.content__list--item--main')print(f"第{i+1}页的数据:")for el in elements:# 获取租房标题name = el.find_element(By.CSS_SELECTOR, '.content__list--item--title a').text# 判断是否包含独栋信息if name.__contains__("独栋"):continue# 获取租房的价格price = el.find_element(By.CSS_SELECTOR, '.content__list--item-price em').textprint(f"name={name},price={price}")total += float(price)# 记录房间的个数size += len(elements)# 点击下一页driver.find_element(By.CSS_SELECTOR,'a.next').click()# 模拟睡眠6秒time.sleep(2)
​
print(f"总价:{total},岳麓区的租房均价为:{total/size}")

1.2.计算的类型(整租,合租)

python">str = """
name=整租·万科里金域国际 4室2厅 南,price=4500
name=独栋·魔方公寓 长沙航天溪湖店 连锁公寓直租无中介费 1室1厅,price=1800
name=整租·潇湘奥林匹克花园 1室1厅 南,price=2200
name=合租·达美美立方 5居室 复式 南卧,price=999
name=整租·万科里金域国际 3室2厅 南,price=3400
"""
# 计算的类型(整租,合租)
print("整租:", str.count("整租"))
print("合租:", str.count("合租"))

1.3.计算的房型

由于在爬取的数据中存在“居室”“室”的区别,所以请将所有的“居室”数据替换成“室”

python">str = """
name=整租·万科里金域国际 4室2厅 南,price=4500
name=独栋·魔方公寓 长沙航天溪湖店 连锁公寓直租无中介费 1室1厅,price=1800
name=整租·潇湘奥林匹克花园 1室1厅 南,price=2200
name=合租·达美美立方 5居室 复式 南卧,price=999
name=整租·万科里金域国际 3室2厅 南,price=3400
"""
import re
import collections
st = str.replace('居室','室')
rs = re.findall(r'\d室',st)
print(rs)
print(collections.Counter(rs))

2.抓取boss直聘前十页的数据

boss直聘网址:「北京招聘网」海量北京人才招聘信息 - BOSS直聘

2.1.抓取boss直聘前十页的数据

其中参数city=101020100是中国天气网全城市代码weather_cityId

python">from selenium import webdriver
from selenium.webdriver.common.by import By
import time 
​
driver = webdriver.Chrome()
driver.get("https://www.zhipin.com/web/geek/job?query=java&city=101020100")
​
jobs = []
​
for i in range(3):time.sleep(6)elements = driver.find_elements(By.CSS_SELECTOR, ".job-card-wrapper")for el in elements:# 获取地区area = el.find_element(By.CSS_SELECTOR,"span.job-area").text# 获取薪酬salary = el.find_element(By.CSS_SELECTOR,"span.salary").textprint(f"area={area},salary={salary}")jobs.append({'area':area,'salary':salary})driver.find_element(By.CSS_SELECTOR,".selected+a").click()
​
print(jobs)

2.2.将获取数据本地序列化

Python的pickle模块是一种用于序列化(将对象转换为字节流)和反序列化(将字节流转换回对象)Python对象的工具。它可以将Python对象保存到文件中或从文件中加载对象。

pickle模块还有其他一些有用的函数和特性。以下是一些常见的功能:

  • pickle.dumps(obj):将对象序列化为字节流,但不保存到文件中。

  • pickle.loads(bytes_obj):从字节流中加载对象,而不是从文件中加载。

  • pickle.dump(obj, file):将对象序列化并保存到文件中。

  • pickle.load(file):从文件中加载序列化的对象。

python"># 将获取到的结果保存到本地
p = Path("jobs.txt")
p.touch()
# 通过pickle.dump实现数据序列化
pickle.dump(jobs,p.open(mode="wb"))

2.3.计算每个区的需求个数与均价

python"># 计算每个区的需求个数与均价
jobs = pickle.load(open('jobs.txt',mode="rb"))
print(jobs)
areas=list(map(lambda a: "".join(re.findall(r'.*?·(.*?)·.*?',a['area'])),jobs))
print(areas)
import collections
rs = collections.Counter(areas)
​
for k,v in rs.items():print(f"【{k}】的工作岗位需求数:{v}")# 获取该区的工作集合ps = list(filter(lambda e: e['area'].count(k) > 0, jobs))# 获取该区的薪酬总价total = functools.reduce(lambda a,b:a+int(b['salary'].split('-')[0]),ps,0)print(f"该区的工作入门平均薪酬:{total/len(ps)}")


http://www.ppmy.cn/news/1462688.html

相关文章

Android SDK的安装和配置

Android SDK的安装和配置是开发Android 应用的重要步骤,下面我为你详细介绍一下这个过程: 安装Android SDK 1. 打开官网:首先,你需要访问Android SDK的官方网站,找到SDK工具的下载链接。 2. 下载SDK:在官…

大模型日报|今日必读的 13 篇大模型论文

大家好,今日必读的大模型论文来啦! 1.MIT新研究:并非所有语言模型特征都是线性的 最近的研究提出了线性表征假说:语言模型通过操作激活空间中概念(“特征”)的一维表征来执行计算。与此相反,来…

elementUI全局配置为中文

问题:elementUI组件出现英文 结局方法:设置App.vue页面 最终效果:

MVC设计模式及其在Java Web开发中的应用

MVC(Model-View-Controller)是一种广泛使用的软件设计模式,它通过将应用程序的逻辑、数据和用户界面展示进行分离,使得软件开发更加模块化、可维护性和可重用性更高。在Java Web开发中,MVC设计模式同样发挥着至关重要的…

二叉树的递归实现及例题

目录 遍历方式 示例 原理 前序遍历示例 二叉树的节点个数 原理 层序遍历 原理 这样做的目的是 判断完全二叉树 例题 ​编辑 思路 代码 遍历方式 二叉树的遍历方式可分为: 前序遍历:先访问根,访问左子树,在访问右子…

【每日刷题】Day48

【每日刷题】Day48 🥕个人主页:开敲🍉 🔥所属专栏:每日刷题🍍 🌼文章目录🌼 1. 872. 叶子相似的树 - 力扣(LeetCode) 2. 114. 二叉树展开为链表 - 力扣&…

中断控制LED及实现串口通信

文章目录 一、 外部中断点亮LED二、中断方式实现串口通信总结 一、 外部中断点亮LED 1、用stm32F103核心板的GPIOA端一管脚接一个LED,GPIOB端口一引脚接一个开关(用杜邦线模拟代替)。采用中断模式编程,当开关接高电平时&#xff…

linux排查思路

1.账号安全 who 查看当前登录用户(tty本地登录pts远程登录) w 查看系统信息,想知道某一时刻用户的行为 uptime 查看登录多久、多少用户,负载 1.查看用户信息文件/etc/passwd root:x:0:0:root:/root:/bin:/b…