迅雷API批量下载巨潮年报

news/2024/11/16 22:42:53/

目录

    • 说明
    • 年报筛选流程
    • 代码

说明

首先从巨潮页面用八爪鱼爬取公告链接列表,但是该链接指向页面还有一个下载按钮且链接无法在详情页对下载直接元素提取,索性链接之间有关系可以直接修改。
下载路径分开保存的一种方法:如何使用python批量下载-用Python调用迅雷实现后台批量下载
还是要手动确认保存感觉有点不够方便
因为迅雷仍然碰到下载速度为0的问题所以用python补充下载,因为没有多线程所以会有点慢
(70条消息) python批量下载巨潮PDF年报_无敌的前任的博客-CSDN博客
迅雷和普通脚本都遇到反爬虫机制拒绝请求:
(73条消息) python批量下载年报(反爬虫应对版)_无敌的前任的博客-CSDN博客
关于网络环境影响导致pdf损坏的处理

年报筛选流程

1、通过简称:“文本包含”ST
2、通过标题:
(1)摘要、已取消
(2)英文版
(3)关于、公告、H股
3、通过代码升序、时间降序排序:
(1)先将以前年度的更新报告放到以前年度文件中(从最新一年开始处理)
(2)然后去重保留最新年报(一定要在上一小步之后)
(3)通过代码排除B股年报

代码

from win32com.client import Dispatch
#pip install win32compat
#pip install pywin32
import os
import re
import openpyxl
import time
def xunlei(url, downpath,filename):#运行之前记得在迅雷的设置中心勾选“一键下载”,不然会有弹框确认是否建立下载任务。#filename = url.split('/')[-1]thunder = Dispatch('ThunderAgent.Agent64.1')#thunder = Dispatch("ThunderAgent.Agent.1")thunder.AddTask(url, filename, downpath, "", "", -1, 0, 5)#thunder.AddTask(url)# AddTask("下载地址", "另存文件名", "保存目录","任务注释","引用地址","开始模式", "只从原始地址下载","从原始地址下载线程数")thunder.CommitTasks()time.sleep(0.05)
def code_revise(code_cell):code=(code_cell.value)code=str(code)#用value就是数值,text不能用for i in range(1,6-len(code)+1):code='0'+codereturn code
def url_revise(url):#普通命令str.replace(old, new[, max])#old --将被替换的子字符串。.new --新字符串,用于替换old子字符串。max --可选字符串,替换不超过max次#re.sub(pattern, repl, string, count=0, flags=0)#参数含义依次为旧字符正则匹配式、新子串、原文、次数默认全部替换#print("url1:" + url)old1=re.compile(r'disclosure/detail\?stockCode=\d+&announcementId')old2=re.compile(r'orgId=\w+\d+&announcementTime')new1='announcement/download?bulletinId'new2='announceTime'url=re.sub(old1,new1,url)url = re.sub(old2, new2, url)#print("url2:"+url)return url
input= r'E:\huang\Documents'
os.chdir(input)
downpath=r'E:\Alark\Users\Desktop\年报'
downlist='2015-2016年其他行业.xlsx'
wb = openpyxl.load_workbook(downlist)
ws = wb.active
#active_sheet = wb.active
for row in ws.rows:if row[0].value==None:#print("row[0]:",row[0].value)breakelse:pass#print(code_revise(row[0]),row[2].value)filename=code_revise(row[0])+'_'+row[2].value+'.pdf'url=url_revise(row[4].value)xunlei(url, downpath, filename)
wb.save("cache.xlsx")

http://www.ppmy.cn/news/163385.html

相关文章

开源创新 协同融合|2023 开放原子全球开源峰会开源协作平台分论坛即将启幕

由开放原子开源基金会主办,阿里云、CSDN 等单位共同承办的开源协作平台分论坛即将于 6 月 12 日上午在北京经开区北人亦创国际会展中心隆重召开。作为 2023 开放原子全球开源峰会的重要组成部分,开源协作平台分论坛将聚焦于开源代码平台的创新功能、用户…

android 迅雷 好用版本,迅雷不限速版本安卓下载-迅雷不限速版 安卓版v6.6.6-PC6安卓网...

需要调用以下重要权限 - 允许访问的帐户服务帐户列表 - 允许应用程序写入到外部存储器 - 允许安装和可移动存储卸载文件系统 - 允许应用程序打开网络套接字 - 允许使用PowerManager WakeLocks让处理器进入休眠或屏幕变暗 - 允许应用程序访问Wi-Fi网络的信息 - 允许只读到电话状…

Docker安装迅雷下载工具实现远程下载

一、获取最新的下载镜像,我用的是yinheli/docker-thunder-xware,下载命令: docker pull yinheli/docker-thunder-xware:latest 二、第一步可以省略直接进行运行这一步的命令,如果本地没有相应的镜像,docker会自动联…

迅雷 android通用版本下载地址,迅雷5下载|迅雷5安卓旧版本-520下载站

迅雷5安卓旧版本是一款新型的基于多资源超线程技术的下载软件。可以帮助用户提高下载速度,防止对硬盘造成伤害,保护用户硬盘的安全。支持磁力链接,种子文件下载等多种下载方式。 软件特色: 【极速下载】全球用户下载工具&#xff…

linux迅雷下载命令,命令行也强大之下载迅雷资源的方法

我给迅雷发过邮件,问他们什么时候开发linux版的迅雷,但几个月过了,我还是没收到任何回音 但是下载东西的时候,经常会遇到以"thunder://"的链接,比如: Quote: thunder://QUFmdHA6Ly9keWdvZDE6ZHlnb2QxQGQxMzEuZHlnb2QuY246MzA0OS/pnZ7or5rli7/mibBEVkRzY3IvW+eU…

深度迅雷5.8.3.556无广告绿色超级精简版【迅雷6核心文件】-绿软下载

深度迅雷5.8.3.556无广告绿色超级精简版【迅雷6核心文件】 软件介绍: 迅雷(Thunder) V5.8.3.556 无广告绿色精简奥运版 本程序由迅雷官方版本5.8.3.556精简制作,其中部分文件【16个核心文件,ComDlls中6个,Program中8个】采用迅雷…

低代码开发重要工具:jvs-rules 规则引擎功能介绍(三)

一、JVS规则引擎的决策流可视化组成 决策流的可视化拼装 规则引擎是由多个组件组成的,这些组件共同协作实现规则的管理、执行和决策流的构建。 决策流:决策流是由多个业务节点连接而成的流程,用于实现复杂的业务逻辑。决策流中的业务节点按…

​LeetCode解法汇总2559. 统计范围内的元音字符串数

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣 描述: 给你一个下标从 0 开始的字符串数组 words 以及一个二维整数数组 queries 。 每…