输入企业名称,爬取企业地址

news/2024/11/24 18:31:17/

输入企业名称,爬取企业地址,你也可以添加其他信息进去。

# -*- coding: utf-8 -*-
"""
Created on Tue Jul 23 14:11:50 2019@author: Administrator
"""import requests
import lxml
import sys
from bs4 import BeautifulSoup
import xlwt
import time
import urllib
import random
from pyquery import PyQuery as pqdef get_user_agent():user_agent_list = ["Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1",
"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",
"Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",
"Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",
"Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"]uer_agent = random.choice(user_agent_list)return uer_agent
headers = {'Host':'www.qichacha.com','Connection': 'keep-alive','Accept':r'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8','X-Requested-With': 'XMLHttpRequest','User-Agent':get_user_agent(),'Referer': 'https://www.qichacha.com/search?key=%E5%B9%BF%E4%B8%9C%E6%83%A0%E5%AE%A0%E5%AE%A0%E7%89%A9%E7%94%A8%E5%93%81%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8','Accept-Encoding':'gzip, deflate, br','Accept-Language':'zh-CN,zh;q=0.9','Cookie':r'QCCSESSID=hjn1j0dpcjv5odsb6ropihka93; zg_did=%7B%22did%22%3A%20%2216c1d9ae9c037c-05a6ce5f67bf25-454c092b-1fa400-16c1d9ae9c1265%22%7D; hasShow=1; acw_tc=3da0cc9815638647858958978e47b118e1822ab9bb75de43e1ea41d84f; acw_sc__v2=5d36aed169dcad5ff9db49c113037e55f6619054; zg_de1d1a35bfa24ce29bbf2c7eb17e6c4f=%7B%22sid%22%3A%201563864787401%2C%22updated%22%3A%201563864824337%2C%22info%22%3A%201563864787411%2C%22superProperty%22%3A%20%22%7B%7D%22%2C%22platform%22%3A%20%22%7B%7D%22%2C%22utm%22%3A%20%22%7B%7D%22%2C%22referrerDomain%22%3A%20%22www.qichacha.com%22%2C%22cuid%22%3A%20%2281402a1a8c4137bae6e4a2d48a37cee6%22%7D',}def Html():list=['城市宠物医院有限公司',
'索尼奇宠物美容屋有限公司',
'香港宠物美容师协会有限公司',
'甜蜜屋专业宠物美容有限公司',
'家宝宠物美容及用品有限公司',
'宝罗国际宠物美容股份有限公司',
'宝罗国际宠物美容股份有限公司-北屯分公司',
'宝罗国际宠物美容股份有限公司-新庄分公司',
'徐州优派特宠物食品有限公司',
'江西一起爱它宠物食品有限公司',
'聊城市宠物食品协会',
'江苏虹宠宠物用品有限公司',]for i in range(len(list)):url=r'https://www.qichacha.com/search?key={}'.format(list[i])try:response = requests.get(url,headers = headers)if response.status_code != 200:response.encoding = 'utf-8'print(response.status_code)print('ERROR')    soup = pq(response.text)com_all_info = soup.find(".m_srchList")except Exception:print('请求都不让,这企查查是想逆天吗???')try:com_all_info_array = com_all_info.find("tr")print('开始爬取数据,请勿打开excel')for tr in com_all_info_array.items():mtxs = tr.find(".m-t-xs")temp_g_name = tr.find(".ma_h1").text()    #获取公司名temp_g_addr = mtxs.eq(2).text()    #获取公司地址print(temp_g_name,temp_g_addr)#            except Exception:
#                print('错误!')except Exception:print('好像被拒绝访问了呢...请稍后再试叭...')   return url#    if x == 0:
#        re = 'http://www.qichacha.com/search?key='+key_word
#    else:
#        re = 'https://www.qichacha.com/search?key={}#p:{}&'.format(key_word,x-1)if __name__ == '__main__':Html()

 


http://www.ppmy.cn/news/221538.html

相关文章

andoird TV 优化学习笔记

文章目录 1. 崩溃优化2. 内存优化2.x 内存优化工具2.x 查看内存的相关命令参考资料 3. 卡顿优化3.1 基础知识3.2 Andorid 卡顿排查工具3.3 可视化方法3.4 如何监控应用卡顿3.5 卡顿现场与卡顿分析3.6 总结3.7 参考资料 4. UI优化4.1 硬件加速4.2 Projbect Buffer相关工具参考资…

国产山寨掌机遇到强劲对手,来自开源界的Odroid Go Advance

1、评测背景 ​ 最近拿到一台来自韩国Odroid开源社区的产品,名字叫Odroid Go Advance,简称OGA。它是台开源掌上游戏机,基于瑞芯微RK3326处理器,GPU支持OpenGL。软件方面,操作系统基于Ubuntu 20.04,支持PPS…

tf卡可以自己裁剪成nm卡_这些年Surface 3用过的TF卡与购买心得

使用Surface 3已经多年,内置储存总是不够用,这些年来不断购买TF卡扩展储存。今天数了下手上已买过9张卡。替换下来的卡一些已经卖掉,一些还继续服役于手机,路由器,相机,导航等各种数码产品。这次把收集的跑分图晒晒,顺便谈谈储存卡选购心得。 购买理由 因为Surface 3是阿…

选择MediaTek,赋能 Vewd for Automotive 平台

与全球先进的半导体解决方案提供商合作 挪威奥斯陆--(美国商业资讯)--OTT 软件解决方案的领先提供商 Vewd 今日宣布,MediaTek的 Autus I20 (MT2712) 芯片组已选为赋能 Vewd for Automotive 的首个参考平台。Vewd for Automotive 是一款采用白色徽标、基于云管理的内…

简单教会按关键字搜索商品

前往注册开通测试 公共参数 名称类型必须描述keyString是调用key(必须以GET方式拼接在URL中)secretString是调用密钥api_nameString是API接口名称(包括在请求地址中)[item_search,item_get,item_search_shop等]cacheString否[yes…

2017嵌入式软件行业现状及概述

[阅读原文]:超长文预警 导读: 本文章介绍了截止2017年为止的嵌入式软件行业现状,包括就业方向,行业产品类型,待遇等等。另外还简单概述了下嵌入式软件所需的知识技能以及未来可能的技能发展走向。本文章远不如专业的行…

索尼推出全新游戏外设系列;现代汽车公布IONIQ 6新车外观设计 | 美通企业日报...

美通社要闻摘要: 索尼推出全新游戏外设系列INZONE。亚马逊云科技成立量子网络中心。现代汽车公布IONIQ 6新车外观设计。德国马牌新能源汽车轮胎eContact上市。国轩高科拟在欧洲投建年产18GWh生产基地。艾里尔和贺尔碧格合作非润滑压缩机解决方案。Ceres和壳牌宣布绿…

【记录】python3 tkinterUI编辑器应用之索尼walkmanA35播放列表编辑工具

tkinterUI编辑器应用(二) 前言一、工具使用说明二、分析播放列表文件三、tinytag读取歌曲信息四、treeview列表模式时点击标题进行排序五、主文件代码,其他代码这里就不展示了 前言 几年前买了个A35播放器,在播放器里编辑播放列表…