爬虫-天眼查数据

news/2024/12/22 23:26:14/

前两天收到一个公司的笔试题:
从结果页面中提取股东信息,如:http://www.tianyancha.com/company/9519792 中展示的”许晨晔”等姓名
oh 我还不会爬虫,吓的我赶紧刷了刷知乎,找到一个例子,大体是个模板,然后又去刷了BeautifulSoup的文档(毕竟爬下来之后还是要解析的),so,在我晚上睡觉的时候,我终于能爬个虫了(逃
然而用我学会的套路去爬笔试题,却出现了问题,爬下来的html里面的数据呢????are you kidding?吓得宝宝又看了看,soga json的。。
查查查:之后就有了下面的版本

from selenium import webdriver
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
dcap = dict(DesiredCapabilities.PHANTOMJS)
dcap["phantomjs.page.settings.userAgent"] = ("Mozilla/5.0 (Windows NT 6.1; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0")
driver = webdriver.PhantomJS(executable_path='D:/Anaconda3/phantomjs.exe', desired_capabilities=dcap)
import time
driver.get('http://www.tianyancha.com/company/9519792')
time.sleep(5)
# 获取网页内容
content = driver.page_source.encode('utf-8')
driver.close()
from bs4 import BeautifulSoup
data=BeautifulSoup(content,'lxml')
use_data=data.find_all(attrs={"ng-if": "dataItemCount.holderCount>0"})
list_td=use_data[0].find_all('td')
name=[]
for line in list_td:l=line.find('a')if l is not None:name.append(l.string)

结果:
[‘马化腾’, ‘张志东’, ‘陈一丹’, ‘许晨晔’]


http://www.ppmy.cn/news/789494.html

相关文章

采集天眼查的10个经典方法

天眼查的企业数据、工商信息、法人号码、人员名录、网页抓取数据、网页爬虫、采集网站数据、网页数据采集软件、python爬虫、HTM网页提取、一站式网站采集技术、BI数据的数据分析、数据标注等成为大数据发展中的热门技术关键词。那么采集天眼查数据的方法有哪些呢?我…

天眼查pc端公司信息抓取

本篇查询的是人工智能前5页相关公司的信息: #主要是异常处理和反爬处理 1.异常处理就是有的公司不是公开的数据没有所以需要判断,不然程序会出错 2.反爬页面浏览多了会需要登录,这边用cookie处理 import requests from lxml import etreegs[…

天眼查新方式信息爬取

\xe8\xb0\xa3\xe8\xa8\x80 \ 中文乱码转换: \xe8\xb0\xa3\xe8\xa8\x80.encode(raw_unicode_escape).decode("utf-8")#本文通过新的方式爬取突破 由于公司列表页信息很少反爬,除了公司名称其他信息都没有,所以可以取巧提取注册时间…

天眼查询

天眼查官方网址:https://www.tianyancha.com/ 国家企业信息信息公开系统:http://www.gsxt.gov.cn/corp-query-homepage.html 介绍: 天眼查是一款 “都能用的商业调查工具”,实现了企业信息、企业发展、司法风险、经营风险、经营…

采集天眼查数据(根据已有的公司名称采集)

因为部分原因,需要用到天眼查的数据,虽然开了天眼查的会员账号,但是导出Excel数据字段内容太少,部分例如工商注册号,组织机构代码都没用,感觉有些不完整,所以利用数据库里已有的公司名称来进行采集,将信息页的内容采集完整 吐槽下,天眼查的反扒确实蛮多的,最早用软件采集,但是…

天眼查企业查询爬虫

写一个天眼查的爬虫,大家有需要的可以直接拿来用,是基于selenium写的。所以使用之前得下载上这个插件。 爬的是上面的那个页面 from selenium import webdriver from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support impor…

爱企查与天眼查也来啦~

续企查查之后,爱企查作为不用登录也能查的网站,还自带json返回,方便了数据的获取,深受我的喜爱。 天眼查只能手机号登录,没有企查查QQ登录的方便,勉强把它拉过来吧,他既没有json返回&#xff0…

天眼查数据采集、分析、深度挖掘

天眼查数据采集与分析 1、天眼查是什么 天眼查是由商业查询平台,在基于独有核心技术图数据库的基础上, 构建了完备的集数据采集、数据清洗、数据聚合、数据建模、数据产品化为一体的大数据解决方案。 秉持“让每个人公平地看清这个世界”的使命&#xff…