爬虫实战-房天下(bengbu.zu.fang.com/)数据爬取

news/2024/9/23 4:47:44/

详细代码链接icon-default.png?t=N7T8https://flowus.cn/hbzx/3c42674d-8e6f-42e3-a3f6-bc1258034676

import requests
from lxml import etree #xpath解析库
def 源代码(url):
    cookies = {
        'global_cookie': 'xeqnmumh38dvpj96uzseftwdr20lvkwkfb9',
        'otherid': 'b44a1837638234f1a0a15e37877e0685',
        'g_sourcepage': 'zf_fy%5Elb_pc',
        '__utma': '147393320.818863681.1714391725.1714391725.1714391725.1',
        '__utmc': '147393320',
        '__utmz': '147393320.1714391725.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none)',
        '__utmt_t0': '1',
        '__utmt_t1': '1',
        '__utmt_t2': '1',
        'keyWord_recenthousebengbu': '%5b%7b%22name%22%3a%22%e9%be%99%e5%ad%90%e6%b9%96%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a011914%2fs31%2f%22%2c%22sort%22%3a1%7d%5d',
        'city': 'sh',
        'ASP.NET_SessionId': '4fpr5u3w5zqqzitrnwafk3cr',
        'zf_csrfcookie': '1cCMHJcsaY7XgtGVMdiMdsydBeGKPxx7G1pYnsK0yn4vRI361O_aeBQfC7SAKi4gktL0kQ2',
        'unique_cookie': 'U_xeqnmumh38dvpj96uzseftwdr20lvkwkfb9*6',
        '__utmb': '147393320.18.10.1714391725',
    }
    
    headers = {
        'accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7',
        'accept-language': 'zh-CN,zh;q=0.9',
        'cache-control': 'max-age=0',
        # 'cookie': 'global_cookie=xeqnmumh38dvpj96uzseftwdr20lvkwkfb9; otherid=b44a1837638234f1a0a15e37877e0685; g_sourcepage=zf_fy%5Elb_pc; __utma=147393320.818863681.1714391725.1714391725.1714391725.1; __utmc=147393320; __utmz=147393320.1714391725.1.1.utmcsr=(direct)|utmccn=(direct)|utmcmd=(none); __utmt_t0=1; __utmt_t1=1; __utmt_t2=1; keyWord_recenthousebengbu=%5b%7b%22name%22%3a%22%e9%be%99%e5%ad%90%e6%b9%96%22%2c%22detailName%22%3a%22%22%2c%22url%22%3a%22%2fhouse-a011914%2fs31%2f%22%2c%22sort%22%3a1%7d%5d; city=sh; ASP.NET_SessionId=4fpr5u3w5zqqzitrnwafk3cr; zf_csrfcookie=1cCMHJcsaY7XgtGVMdiMdsydBeGKPxx7G1pYnsK0yn4vRI361O_aeBQfC7SAKi4gktL0kQ2; unique_cookie=U_xeqnmumh38dvpj96uzseftwdr20lvkwkfb9*6; __utmb=147393320.18.10.1714391725',
        'priority': 'u=0, i',
        'referer': 'https://sh.zu.fang.com/house/i33/',
        'sec-ch-ua': '"Chromium";v="124", "Google Chrome";v="124", "Not-A.Brand";v="99"',
        'sec-ch-ua-mobile': '?0',
        'sec-ch-ua-platform': '"Windows"',
        'sec-fetch-dest': 'document',
        'sec-fetch-mode': 'navigate',
        'sec-fetch-site': 'same-origin',
        'sec-fetch-user': '?1',
        'upgrade-insecure-requests': '1',
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36',
    }
    response = requests.get(url, cookies=cookies, headers=headers).text
    #response是源代码
    return response
if __name__=='__main__':
    for fan in range(1,10):
        url='https://sh.zu.fang.com/house/i3{fan}/'
        res=源代码(url)
        res=etree.HTML(res) #初始化
        #//*[@id="rentid_D09_01_02"]/a   a后面没有加/text()
        #//*[@id="rentid_D09_60_02"]/a
        #//*[@id="rentid_D09_02_02"]/a
        #//*[@id="rentid_D09_31_02"]/a
        for i in range(1,61):
            if i<10:
                ix='0'+str(i)
                xp=f'//*[@id="rentid_D09_{ix}_02"]/a/text()'
            else:
                xp=f'//*[@id="rentid_D09_{i}_02"]/a/text()'
            title=res.xpath(xp)[0]
            print(title,end=' ')
            xp=f'//*[@id="listBox"]/div[3]/dl[{i}]/dd/p[2]/text()'
            #//*[@id="listBox"]/div[3]/dl[60]/dd/p[2]
            p=res.xpath(xp)[0].strip()
            print(p,end=' ')
            xp=f'//*[@id="listBox"]/div[3]/dl[{i}]/dd/div[2]/p/span/text()'
            #//*[@id="listBox"]/div[3]/dl[60]/dd/div[2]/p/span
            jg=res.xpath(xp)[0]      
            print(jg)

 


http://www.ppmy.cn/news/1444922.html

相关文章

【UE C++】打印输出的两种方式

目录 一、UE_LOG 二、调试屏幕信息 一、UE_LOG 定义&#xff1a; UE_LOG 是一个将格式化消息记录到日志文件中的宏。 用法&#xff1a; UE_LOG(LogTemp, Warning, TEXT("Hello World")); 第一个输入参数 LogTemp 是提供给 DEFINE_LOG_CATEGORY 宏的类别名称。你…

《动手学深度学习(Pytorch版)》Task03:线性神经网络——4.29打卡

《动手学深度学习&#xff08;Pytorch版&#xff09;》Task03&#xff1a;线性神经网络 线性回归基本元素线性模型损失函数随机梯度下降 正态分布与平方损失 线性回归的从零开始实现读取数据集初始化模型参数定义模型定义损失函数定义优化算法训练 线性回归的简洁实现读取数据集…

【SQL Server】入门教程-基础篇(二)

上一篇写的是SQL Server的基础语言&#xff0c;这一篇文章讲的是SQL Server的高级语言。 SQL Server 高级言语学习 LIKE – 模糊查询 LIKE 语法是用来进行对表的模糊查询。 语法&#xff1a; SELECT 列名/(*) FROM 表名称 WHERE 列名称 LIKE 值; 实例&#xff1a; 我们用上…

Unity镂空图像做法

问题和解决方案 现在要完成一个需求&#xff0c;即镂空中间部分的image&#xff0c;外围image可以定义颜色并可选屏蔽点击&#xff0c;而中间的image需要透明且可以穿透&#xff0c;必须不能屏蔽点击。 由此拆分成了两个问题&#xff1a; 1.定义外围image颜色&#xff0c;内…

第13天 String,正则表达式,String 支持正则表达式,object,JavaBean

String 字符串.charAt(索引值):获取字符串中索引处的字符 char[] chars 字符串.tocharArray(); : 将字符串转换为字符数组 String s new String(字符数组名,起始索引&#xff0c;截取字符串总共的长度) &#xff1a;截取一部分字符数组转化为字符串 String s new String(字…

小米金融守护消费权益,共筑金融和谐新篇章

随着金融市场的日益成熟&#xff0c;金融消费者的权益保护问题逐渐受到广泛关注。作为金融服务体系中的重要一环&#xff0c;保护消费者权益不仅是金融机构的基本职责&#xff0c;更是其长远发展的基石。小米金融聚焦于金融消费者权益保护&#xff0c;通过梳理典型案例&#xf…

idea常用知识点随记

idea常用知识点随记 1. 打开idea隐藏的commit窗口2. idea中拉取Git分支代码3. idea提示代码报错&#xff0c;项目编译没有报错4. idea中实体类自动生成序列号5. idea隐藏当前分支未commit代码6. idea拉取新建分支的方法 1. 打开idea隐藏的commit窗口 idea左上角File→Settings…

微服务使用SockJs+Stomp实现Websocket 前后端实例 | Vuex形式断开重连、跨域等等问题踩坑(二)

大家好&#xff0c;我是程序员大猩猩。 上次我们实践了&#xff0c;Java后端如何完成SockJSStomp的配置实现。 微服务使用SockJsStomp实现Websocket 前后端实例 | Vuex形式断开重连、跨域等等问题踩坑&#xff08;一&#xff09; 那么今天我们做一下web vue端的是如何来实现…