基于Python爬取天眼查网站的企业信息

基于Python爬取天眼查网站的企业信息

news/2024/12/22 14:17:46/

爬虫简介

这是一个在未登录的情况下，根据企业名称搜索，爬取企业页面数据的采集程序

注意:这是一个比较简单的爬虫，基本上只用到了代理，没有用到其他的反反爬技术，不过由于爬取的数据比较多， 适合刷解析技能的熟练度 ，所以高手勿进

代码已经上传到 GitHub 上，有用还请给个星

python版本：python2.7

编码工具：pycharm

数据存储：mysql

爬虫结构：广度爬虫

爬虫思路：

先获取需要采集信息的公司：
1. 从数据库中获取
2. 获取字段：etid，etname
3. 将获取的数据存储的状态表中
4. 从状态表中获取数据，并更新状态表
拼接初始URL：
1. 将etname和初始url进行拼接，获得初始网址
2. 将初始url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取
请求解析初始一级页面：
1. 验证查询的公司是否正确（？？）
2. 获取二级页面url
3. 将二级url放到一个列表中，获取HTML的时候如何出错，将出错的url放到另一个列表中，进行循环获取
请求解析二级页面：
1. 获取的信息待定
将公司的信息存储到数据库中：
1. 建表
2. 存储信息

所建的表：

企业主要信息： et_host_info
工商信息： et_busi_info
分支机构信息： et_branch_office
软件著作权信息： et_container_copyright_info
网站备案信息： et_conrainer_icp_info
对外投资信息： et_foreign_investment_info
融资信息： et_rongzi_info
股东信息： et_stareholder_info
商标信息： et_trademark_info
微信公众号信息：et_wechat_list_info
状态表： et_name_status

看一下部分的结果图：

http://www.ppmy.cn/news/789503.html

相关文章

java对接天眼查接口，天眼查提供案例方法过期最新案例

java对接天眼查接口，天眼查提供案例方法过期最新案例

java对接天眼查接口 1、先了解天眼查是用来做什么的2、确定账号3、登录账号，找到数据接口，找到token，调用示例 1、先了解天眼查是用来做什么的天眼查，是中国领先的商业查询平台 ，已收录全国近3亿家社会实体信息&…

阅读更多...

Java项目对接天眼查

Java项目对接天眼查

Java项目对接天眼查文章目录 Java项目对接天眼查天眼查接口以及token获取1、登录天眼查开放平台2、找到数据接口，找到token，调用示例 Java代码以及返回值1、config2、controller层3、service层4、实体类4、测试结果总结天眼查接口以及token获取 1、登…

阅读更多...

Python访问天眼查

Python访问天眼查

还是今年暑假实习，老板让爬公开的企业联系方式数据，还对天眼查这个网站青眼有加。大家都知道，从不知什么时候开始，政府的企业信用公开平台采取了反爬措施，每次搜索都需通过机器人验证，而很多其他的企业信息…

阅读更多...

d3 企业图谱仿天眼查企查查

d3 企业图谱仿天眼查企查查

最近接到一个需求，终端要加入企业图谱的功能、能无线穿透下去，之前写过一个类似树形图但是节点长度没有自适应（如下图），样式也不够好看，产品提出做一个类似企查查那种的企业图谱，能更直观的展示…

阅读更多...

仿企查查、天眼查股权穿透d3

仿企查查、天眼查股权穿透d3

企业图谱做出来了，接下来仿企查查写个股权穿透的图谱企查查股权穿透自己的首先使用的方法以及生成图的方法跟企业图谱类似也是用的d3官方demo给出的生成双向树的方法，不过版本是d3.v3 相比企业图谱股权穿透就简单了，不需要计算文字长…

阅读更多...

python天眼查爬虫_普通用户的天眼查爬取

python天眼查爬虫_普通用户的天眼查爬取

[Python] 纯文本查看复制代码#-*- coding:utf-8 -*- import requests from lxml import etree import json import time import random from copy import deepcopy class Tianyan(): def __init__(self): self.url https://www.tianyancha.com/search/ola3/p{}?key%E6%B2%A7…

阅读更多...

JAVA爬虫天眼查、启信宝...企业信息查询网站

JAVA爬虫天眼查、启信宝...企业信息查询网站

闲来无事，做个快速收集企业信息导出Excel表的程序。所以...嘿嘿，开始对天眼查进行研究，废话不多说。一、天眼查网站地址：https://www.tianyancha.com，到天眼查网站后例如：查询关键字：教育&…

阅读更多...

天眼查 Authorized和企查查 sign破解

天眼查 Authorized和企查查 sign破解

目前天眼查、企查查APP均使用了ndk 天眼查很早之前研究的。。。 1.使用爱加密进行加固 2.使用爱加密so，sm4进行加密 3.Authorized使用imei、设备id等作为验证 4.Authorized大概5分钟过期 5.抓包可以使用手机端抓包工具和justtruestme 6.破解Authorized&#xff0…

阅读更多...

最新文章