python_巨潮年报pdf下载

server/2025/3/27 13:59:46/

目录

前置:

步骤:

step one: pip安装必要包,获取年报url列表

pdf%20url-toc" name="tableOfContents" style="margin-left:40px">step two: 将查看url列表转换为pdf url

pdf%C2%A0-toc" name="tableOfContents" style="margin-left:40px">step three: 多进程下载pdf 


前置:

1 了解一些股票的基本面需要看历年年报,在巨潮一个个下载比较费时间,所以考虑用python把年报pdf下载下来。

2 如果要下载的股票个数很多,提前预备好大硬盘。本人下载深沪两市年报,大概150G。另外,要耐心,整个下载过程要十几二十小时,视电脑配置和网络而定。

步骤:

step one: pip安装必要包,获取年报url列表

pip install pandas -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install openpyxl -i https://pypi.tuna.tsinghua.edu.cn/simple
pip install akshare -i https://pypi.tuna.tsinghua.edu.cn/simple

pandas 本地处理数据、openpyxl excel表格处理需要这个包、akshare获取url接口(要了解akshare具体用法可以看其官网,直接百度搜素就能找到其官网)

1 获取股票代码列表,可以在通达信中获取。(通达信行情-》A股-》按“34”键-》导出表格)

2 写代码,遍历每个股票,一个股票一个Excel,记录该股票所有年报url。(巨潮最早能查到2000年)

def temp_000():import akshare as akpre_dir = r'E:/temp002/'with open('./stock_ticker.txt',mode='r',encoding='utf-8') as fr:contents = fr.read()stock_ticker_list = contents.split('\n')for symbol_str in stock_ticker_list:try:df = ak.stock_zh_a_disclosure_report_cninfo(symbol=symbol_str, market="沪深京",category="年报",start_date="20000101",end_date="20250315")df.to_excel(pre_dir+symbol_str+'.xlsx',engine='openpyxl')except:print(symbol_str)pass

3 这个过程大概半个小时到一个小时

 公告链接,这一列就是我们要的

pdf%20url" name="step%20two%3A%C2%A0%E5%B0%86%E6%9F%A5%E7%9C%8Burl%E5%88%97%E8%A1%A8%E8%BD%AC%E6%8D%A2%E4%B8%BApdf%20url">step two: 将查看url列表转换为pdf url

step one获取的公告链接是网页查看的url,要下载pdf需要获取pdf对应的url

1 拿一个公告链接用浏览器打开,寻找pdf对应的url

http://www.cninfo.com.cn/new/disclosure/detail?stockCode=000001&announcementId=1222806509&orgId=gssz0000001&announcementTime=2025-03-15 00:00:00

 2 对比pdf url与公告链接的关系,将所有公告链接转换成pdf对应的url

def temp_001():pre_dir = r'E:/temp002/'tar_dir = r'E:/temp006/'file_list = os.listdir(pre_dir)for file_one in file_list:ticker = file_one[0:6]pre_file_path = pre_dir + file_onedf = pd.read_excel(pre_file_path,engine='openpyxl')url_list = df['公告链接'].to_list()pdf_url_list = []for u_one in url_list:u_one_00 = u_one.split('&')node_00 = u_one_00[1].replace('announcementId=','')node_01 = u_one_00[-1].replace('announcementTime=','')node_01 = node_01[0:10]tar_node = f'http://static.cninfo.com.cn/finalpage/{node_01}/{node_00}.PDF'pdf_url_list.append(tar_node)passpdf_url_list_str = '\n'.join(pdf_url_list)with open(f'{tar_dir}/{ticker}.txt', mode='w', encoding='utf-8') as fw:fw.write(pdf_url_list_str)passpass

3 这个过程几分钟,一个股票对应一个txt文件

pdf%C2%A0" name="step%20three%3A%C2%A0%E5%A4%9A%E8%BF%9B%E7%A8%8B%E4%B8%8B%E8%BD%BDpdf%C2%A0">step three: 多进程下载pdf 

要下载的pdf很多,但股票个数也就五千多个,本人搞了个简单的多线程

1 分5个线程,把txt文件分到五个文件夹里,文件夹以0、1、2、3、4命名

2 创建下载后放置pdf文件的文件夹,文件夹同样以0、1、3、4命名

3 写代码,执行。等待执行完毕,整个过程十几小时以上,看电脑配置和网络情况。

import os,threading'''
多线程下载财报
'''# 创建多个线程
def temp_thread():threads = []for i in range(5):thread = threading.Thread(target=temp_005,args=(i,))threads.append(thread)thread.start()passfor thread in threads:thread.join()print('all thread finished')pass# 执行项
def temp_005(i):import requestspre_dir = r'E:/temp006/'+str(i)+'/'tar_dir = r'E:/temp007/'+str(i)+'/'file_list = os.listdir(pre_dir)for file_one in file_list:ticker = file_one[0:6]tar_dir00 = tar_dir + ticker + os.path.sepif not os.path.exists(tar_dir00):os.mkdir(tar_dir00)url_file_path = pre_dir + file_onewith open(url_file_path,'r') as fr:url_str = fr.read()url_list = url_str.split('\n')try:for url_one in url_list:tar_file_name00 = url_one.split('/')tar_file_name = f"{tar_file_name00[-2]}_{tar_file_name00[-1]}.pdf"try:res = requests.get(url_one)if res.status_code == 200:with open(tar_dir00+tar_file_name,'wb') as fw:fw.write(res.content)passelse:error_str = f'下载失败,状态码:{res.status_code}。{url_one}\n'with open(f'./{i}.txt','a',encoding='utf-8') as fw:fw.write(error_str)except:print(url_one)passpassexcept:print(ticker)passprint('----------------end---',i)passif __name__ == '__main__':temp_thread()pass

执行完毕后,研究历年财报再也不用一个个下载啦,哈哈哈

文章来源:https://blog.csdn.net/m0_37967652/article/details/146291417
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ppmy.cn/server/176888.html

相关文章

主流区块链

文章目录 主流链1. Solana特点:适用场景:工具链: 2. Binance Smart Chain (BSC)特点:适用场景:工具链: 3. Avalanche特点:适用场景:工具链: 4. Polkadot特点:…

再学:合约继承 、抽象合约 solidity接口、库、事件 合约重入攻击

目录 1.合约继承 2.抽象合约 3.接口 4.库 5.事件 6.重入攻击 1.合约继承 这里的代码解释:B继承A B可以访问A的set()方法(即便是internal也可以),也可以拿到A的a变量。 只要这些在A的东西不是private就行 若想在子类可以重写…

【jQuery 使用教程】

文章目录 一、前言二、jQuery 简介1. 什么是 jQuery?2. jQuery 发展历史 三、jQuery 的使用1. 引入 jQuery方式 1:使用 CDN方式 2:本地引入 2. jQuery 语法基础1. 语法结构 3. jQuery 选择器4. jQuery 事件处理1. 点击事件 (click())2. 鼠标悬…

wangEditor富文本轻量使用及多个编辑器

0、官网 wangEditor multi editor 1、引入文件 <!--【富文本】第1步&#xff0c;引入--> <link rel"stylesheet" href"/wangeditor/style.css"/> <script charset"utf-8" src"/wangeditor/index.js"></script…

IO(Input/Output)

IO IO,即输入/输出&#xff0c;磁盘IO,网络IO 计算机角度的IO 主观意思就是计算机输入输出&#xff0c;计算机是主体。计算机分为5个部分:运算器&#xff0c;控制器&#xff0c;存储器&#xff0c;输入设备&#xff0c;输出设备。 输入设备&#xff1a;向计算机输入数据和信…

网络爬虫【爬虫库request】

我叫不三不四&#xff0c;很高兴见到大家&#xff0c;欢迎一起学习交流和进步 今天来讲一讲爬虫 Requests是Python的一个很实用的HTTP客户端库&#xff0c;完全满足如今网络爬虫的需求。与Urllib对比&#xff0c;Requests不仅具备Urllib的全部功能&#xff1b;在开发使用上&…

Python----计算机视觉处理(Opencv:图像缩放)

图像缩放 与图像旋转里的缩放的原理一样&#xff0c;图像缩放的原理也是根据需要将原图像的像素数量增加或减少&#xff0c;并通 过插值算法来计算新像素的像素值。 导入模块 import cv2 输入图像 imgcv2.imread(lena.png) 图像缩放 img_sizecv2.resize(img,None,fx0.5,fy0.5,…

Oracle+11g+笔记(11)-数据库的安全管理

Oracle11g笔记(11)-数据库的安全管理 11、数据库的安全管理 11. 1 用户管理 11.1.1 创建用户 创建用户可以采用CREATE USER命令来完成。下面是CREATE USER 命令的语法。 CREATE USER username IDENTIFIED BY password OR IDENTIFIED EXTERNALLY OR IDENTIFIED GLOBALLY AS…