今年,我只赚了一点点

news/2024/10/23 9:26:27/

大家好,我是 Jack。

之前一直有小伙伴问我,有没有免费的股票信息查询的 API 接口?

我看了一圈,很多免费的 API 接口都年久失修,失效了。

那好吧,咱自己写一个

想要玩量化交易,第一步,那得有稳定的股票数据来源。

然后再谈什么量化策略,怎么选股、何时买股。

怎么稳定的获取数据呢?

只能是抄起我的老板行,写个网络爬虫,自动抓取数据

玩股票、玩基金的,应该多多少听过一款股票交流 APP 雪球。

这里面的数据很全,就它了!

前方提醒:使用网络爬虫,请控制好访问频率。

在雪球上,想要获得各种股票信息,那需要携带身份信息,也就是要有 Cookie。

没有 Cookie,很多信息是获取不到的。

2017 年的时候,我就写过关于 Cookie 的文章。

一些基础知识忘记的小伙伴,可以重温下我这个系列的文章。

网络爬虫教程(2020年)

想要获取 Cookie,那就需要进行模拟登录。

模拟登录 - 准备篇

模拟登录,顾名思义,就是模拟人类的行为,登录这个网站。

登录之后,我们就可以用保存身份信息的 Cookie,获取我们想要的各种数据:股票信息、基金信息等。

我们先手动登录,体验一下整个登录流程。

手动登录

第一步:点击登录按钮。

第二步:输入帐号和密码,并点击登录。

第三步:解锁滑块。

第四步:登录成功。

模拟登录

接下来,就是需要写个代码,让代码替我们完成上述操作

这里我使用 Selenium,它是一款自动化测试工具。

不过说实话,Selenium 这东西挺老了。

现在有不少更好的工具,不过对于模拟登录的知识储备,我还停留在 2017 年,也只会用它了。

有更好更好的方法的话,欢迎小伙伴们提交 PR。

不过,好在 Selenium 虽然老了点,但还能勉强胜任获取 Cookie 这项工作的。

Selenium 不会的小伙伴,可以看我从前的教程:

https://jackcui.blog.csdn.net/article/details/72331737

想要使用 Selenium,首先需要下载浏览器驱动,这里以 Chrome 浏览器为例。

打开 Chrome 浏览器,查看 Chrome 版本号。

然后根据这个版本号,下载相同大版本的驱动。

http://chromedriver.storage.googleapis.com/index.html

根据自己的操作系统,选择对应的版本。

我的是 Windows 电脑,选择 Win32 的版本。

下载好后,解压备用。

最后安装 Selenium 第三方依赖库。

python -m pip install selenium==3.4 --user

注意,需要安装 3.4 的版本,Selenium 的新版本改动较多,用我的代码会存在接口不兼容的情况。

模拟登录 - 实战篇

我们先睹为快,看下让代码自动登录雪球的效果:

https://cuijiahua.com/wp-content/uploads/2022/12/1.mp4

(PS:录屏时间 12.2,由于大家都知道的原因,页面为黑白)

其实模拟登录的思路很简单,就是根据审查元素,找到各个元素的位置。

比如登录按钮,右键审查元素,然后选择 Copy Xpath。

就能拷贝路径地址。

使用这种方法,找到帐号输入框、密码输入框的位置,然后点击登录即可。

这里的难点在于验证码。

不过好在,GEETEST 验证码的破解,我还是有些经验的,17 年的时候,就写过相关内容。

很多代码,直接复用即可

整体思路就是:

  • 使用Selenium打开页面。

  • 匹配到输入框,输入账号密码,点击登录。

  • 读取验证码图片,并做缺口识别。

  • 根据缺口位置,计算滑动距离。

  • 根据滑动距离,拖拽滑块到需要匹配的位置。

直接放代码:

from selenium import webdriver
from selenium.webdriver import ActionChains
from io import BytesIO
import json
import base64
import time
from selenium.webdriver.common.by import By
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from time import sleep
from PIL import Image
from selenium import webdriver# 账号
USERNAME = '***'
# 密码
PASSWORD = '***'
BORDER = 6class Login(object):def __init__(self):self.url = 'https://xueqiu.com/'opt = webdriver.ChromeOptions()opt.add_experimental_option('w3c', False)self.browser = webdriver.Chrome("chromedriver.exe", chrome_options=opt)self.browser.maximize_window()#第一处修复,设置浏览器全屏self.username = USERNAMEself.password = PASSWORDself.wait = WebDriverWait(self.browser, 20)def __del__(self):print("close")def open(self):self.browser.get(self.url)ele = self.browser.find_element_by_xpath('//*[@id="app"]/nav/div[1]/div[2]/div/div')#第二处修复,改xpathele.click()username = self.wait.until(EC.presence_of_element_located((By.XPATH, '//input[@name="username"]')))pwd = self.wait.until(EC.presence_of_element_located((By.XPATH, '//input[@name="password"]')))username.send_keys(self.username)time.sleep(2)pwd.send_keys(self.password)# 获取验证码按钮def get_yzm_button(self):button = self.wait.until(EC.presence_of_element_located((By.XPATH, '/html/body/div[2]/div[1]/div/div/div/div[2]/div[2]/div[2]')))#第三处修复,改xpathreturn button# 获取验证码图片对象def get_img_element(self):element = self.wait.until(EC.presence_of_element_located((By.XPATH, '//cavas[@name="geetest_canvas_bg geetest_absolute"]')))return elementdef get_position(self):# 获取验证码位置element = self.get_img_element()sleep(2)location = element.locationsize = element.sizetop, bottom, left, right = location['y'], location['y'] + size['height'], location['x'], location['x'] + size['width']return left, top, right, bottomdef get_geetest_image(self):"""获取验证码图片:return: 图片对象"""'''<canvas class="geetest_canvas_bg geetest_absolute" height="160" width="260"></canvas>'''# 带阴影的图片# im = self.wait.until(EC.presence_of_element_located((By.XPATH, '/html/body/div[4]/div[2]/div[6]/div/div[1]/div[1]/div/a/div[1]/div/canvas[1]')))im = self.wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.geetest_canvas_bg')))time.sleep(2)im.screenshot('captcha.png')# 执行 JS 代码并拿到图片 base64 数据JS = 'return document.getElementsByClassName("geetest_canvas_fullbg")[0].toDataURL("image/png");'  # 不带阴影的完整图片im_info = self.browser.execute_script(JS)  # 执行js文件得到带图片信息的图片数据# 拿到base64编码的图片信息im_base64 = im_info.split(',')[1]# 转为bytes类型captcha1 = base64.b64decode(im_base64)# 将图片保存在本地with open('captcha1.png', 'wb') as f:f.write(captcha1)JS = 'return document.getElementsByClassName("geetest_canvas_bg")[0].toDataURL("image/png");'# 执行 JS 代码并拿到图片 base64 数据ng  # 带阴影的图片im_info = self.browser.execute_script(JS)  # 执行js文件得到带图片信息的图片数据# 拿到base64编码的图片信息im_base64 = im_info.split(',')[1]# 转为bytes类型captcha2 = base64.b64decode(im_base64)# 将图片保存在本地with open('captcha2.png', 'wb') as f:f.write(captcha2)captcha1 = Image.open('captcha1.png')captcha2 = Image.open('captcha2.png')return captcha1, captcha2# 获取网页截图def get_screen_shot(self):screen_shot = self.browser.get_screenshot_as_png()screen_shot = Image.open(BytesIO(screen_shot))return screen_shotdef get_yzm_img(self, name='captcha.png'):#  获取验证码图片left, top, right, bottom = self.get_position()print('验证码位置', top, bottom, left, right)screen_shot = self.get_screen_shot()captcha = screen_shot.crop((left, top, right, bottom))captcha.save(name)return captchadef get_slider(self):# 获取滑块# :return: 滑块对象slider = self.wait.until(EC.element_to_be_clickable((By.CLASS_NAME, 'geetest_slider_track')))return sliderdef get_gap(self, image1, image2):"""获取缺口偏移量:param image1: 不带缺口图片:param image2: 带缺口图片:return:"""left = 62for i in range(left, image1.size[0]):for j in range(image1.size[1]):if not self.is_pixel_equal(image1, image2, i, j):left = ireturn left# return leftdef is_pixel_equal(self, image1, image2, x, y):"""判断两个像素是否相同:param image1: 图片1:param image2: 图片2:param x: 位置x:param y: 位置y:return: 像素是否相同"""# 取两个图片的像素点pixel1 = image1.load()[x, y]pixel2 = image2.load()[x, y]threshold = 60if abs(pixel1[0] - pixel2[0]) < threshold and abs(pixel1[1] - pixel2[1]) < threshold and abs(pixel1[2] - pixel2[2]) < threshold:return Trueelse:return Falsedef get_track(self, distance):"""根据偏移量获取移动轨迹:param distance: 偏移量:return: 移动轨迹"""# 初速度v = 0# 单位时间为0.2s来统计轨迹,轨迹即0.2内的位移t = 0.3# 位移/轨迹列表,列表内的一个元素代表0.2s的位移tracks = []# 当前的位移current = 5# 到达mid值开始减速mid = distance * 3 / 5while current < distance:if current < mid:# 加速度越小,单位时间的位移越小,模拟的轨迹就越多越详细a = 2else:a = -3# 初速度v0 = v# 0.2秒时间内的位移s = v0 * t + 0.4 * a * (t ** 2)# 当前的位置current += s# 添加到轨迹列表tracks.append(round(s))# 速度已经达到v,该速度作为下次的初速度v = v0 + a * treturn tracksdef move_to_gap(self, slider, track):"""拖动滑块到缺口处:param slider: 滑块:param track: 轨迹:return:"""ActionChains(self.browser).click_and_hold(slider).perform()for x in track:ActionChains(self.browser).move_by_offset(xoffset=x, yoffset=0).perform()time.sleep(0.5)ActionChains(self.browser).release().perform()def shake_mouse(self):"""模拟人手释放鼠标抖动:return: None"""ActionChains(self.browser).move_by_offset(xoffset=-2, yoffset=0).perform()ActionChains(self.browser).move_by_offset(xoffset=2, yoffset=0).perform()def operate_slider(self, track):'''拖动滑块'''# 获取拖动按钮back_tracks = [-1,-1, -1, -1]slider_bt = self.browser.find_element_by_xpath('//div[@class="geetest_slider_button"]')# 点击拖动验证码的按钮不放ActionChains(self.browser).click_and_hold(slider_bt).perform()# 按正向轨迹移动for i in track:ActionChains(self.browser).move_by_offset(xoffset=i, yoffset=0).perform()time.sleep(1)ActionChains(self.browser).release().perform()def get_cookies(self):try:cookie_list = self.browser.get_cookies()cookie_dict = {i['name']: i['value'] for i in cookie_list}with open('xueqiu_cookies', 'w', encoding='utf8')as f:cookie_dict = json.dumps(cookie_dict)f.write(cookie_dict)return cookie_dictexcept:print("cookie 获取失败")return None# 读取cookiedef return_cookie(self):cookies = ''with open('xueqiu_cookies', 'r')as f:cookie = f.read()[1:-1]cookie = cookie.split(', ')for i in cookie:cook = i.split(': ')cookies += cook[0][1:-1] + '=' + cook[1][1:-1] + ';'return cookiesdef run(self):# 破解入口self.open(), sleep(3)self.get_yzm_button().click(), sleep(2)# 点击验证按钮# 点按呼出缺口slider = self.get_slider()# slider.click()# 获取带缺口的验证码图片image1, image2 = self.get_geetest_image()gap = self.get_gap(image1, image2)print('缺口位置', gap)track = self.get_track(gap)print('滑动轨迹', track)self.operate_slider(track)# 判定是否成功time.sleep(8)try:elem = self.wait.until(EC.text_to_be_present_in_element((By.CLASS_NAME, 'nav__btn--longtext'), '发帖'))if elem:cookie = self.get_cookies()else:print("get cookies errors")except Exception as e:print(e, 'fail! ')time.sleep(3)self.run()finally:self.browser.quit()if __name__ == '__main__':crack = Login()crack.run()

代码我也上传到 Github 上了,代码的后续更新维护会放在这里建议 Star 收藏下

https://github.com/Jack-Cherish/quantitative

数据获取

等待模拟登录完成后,会保存一个名为 xueqiu_cookies 的文件。

这里保存的是帐号的 Cookie,使用这个 Cookie 就能获取雪球的数据了。

比如,获取一下股票实时行情和现金流量表,就可以这样写:

#-*- coding:utf-8 -*-
import requests
import jsondef fetch(url, xq_a_token):headers = {'Host': 'stock.xueqiu.com','Accept': 'application/json','Cookie': 'xq_a_token={};'.format(xq_a_token),'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36','Accept-Language': 'zh-Hans-CN;q=1, ja-JP;q=0.9','Accept-Encoding': 'br, gzip, deflate','Connection': 'keep-alive'}response = requests.get(url, headers = headers)if response.status_code != 200:raise Exception(response.content)return json.loads(response.content)if __name__ == '__main__':# 获取股票 SH600000 实时行情url = "http://stock.xueqiu.com/v5/stock/quote.json?extend=detail&symbol=SH600000&count=10"with open("xueqiu_cookies", "r") as f:cookies_info = json.load(f)res = fetch(url, cookies_info['xq_a_token'])print(res)# 获取股票 SH600000 现金流量表url = "http://stock.xueqiu.com/v5/stock/finance/cn/cash_flow.json?symbol=SH600000&count=10"with open("xueqiu_cookies", "r") as f:cookies_info = json.load(f)res = fetch(url, cookies_info['xq_a_token'])print(res)

运行结果:

有了 Cookie,很多接口数据都能获取,实时行情、实时分笔、业绩预告、机构评级、资金流向趋势、资金流向历史、资金成交分布、大宗交易、融资融券、业绩指标、利润表、资产负债表、现金流量表、主营业务构成、F10 十大股东、F10 主要指标等等。

这些数据,都能获取。

絮叨

篇幅有限,今天就是带大家小小实战下。

后续我会完善各个常用查询接口,方便大家获取各类数据,用于量化分析。

万事开头难,先弄好数据,再看量化策略~

如果喜欢这类的内容,记得点赞,喜欢的人多的话,我会快速加更的~

最后必须提醒一下各位:

获取数据,请温柔,请勿高并发获取,且用且珍惜。

对了,还有不少小伙伴问我,我的量化策略收益如何。

去年的五万元实验,最后浮盈不到 10%,清仓之后就换新的策略实验了。

6月份的时候,又用上了新策略,新的策略一直跑到今年 10 月份,也就这样:

实验没放多少钱,随便玩玩,你觉得,这点收益如何?

好了,今天就聊这么多吧,我是 Jack,我们下期见~


http://www.ppmy.cn/news/213784.html

相关文章

ChatGPT 官方 API 来了,价格直接打骨折,未来……

大家好&#xff0c;我是校长。 ChatGPT 自去年年底公布以来&#xff0c;最近这几个月一直处于火热的状态当中&#xff0c;堪称引起了人工智能旋风。 01 官方 API 来了 昨天凌晨 2 点左右&#xff08;美西时间 3 月 1 日&#xff08;周三&#xff09;&#xff09;&#xff0c;Op…

手机淘汰了多少机器,你怎么看?

从1993年至今&#xff0c;差不多30年的时间里&#xff0c;手机不仅淘汰了很多机器&#xff0c;而且随着智能手机的出现&#xff0c;很多的生活用品、娱乐场所和商场柜台也都被手机淘汰了。 一、被手机淘汰的电子产品 1、彻底被淘汰的传呼机 传呼机&#xff0c;又叫做BB机、B…

10个python办公黑科技,助你办公效率提高100倍

1946年&#xff0c;世界上第一台通用计算机“ENIAC”在美国宾夕法尼亚大学诞生&#xff1b;“ENIAC”占地170平方米&#xff0c;重达30吨&#xff0c;耗电功率约150千瓦&#xff0c;每秒钟可进行5000次运算&#xff0c;这个庞然大物用于美国国防部进行弹道计算。 在当时&#…

python用爬虫实现抢票_PythonGUI+爬虫-从零打造12306抢票软件价值1680元

├── 000-课前必读.mp4 ├── 001-撩课-12306抢票软件项目-项目展示.mp4 ├── 002-撩课-12306抢票项目开篇-2019新年快乐!.mp4 ├── 003-撩课-抢票软件项目-项目需求和原型图.mp4 ├── 004-网络基础-网络-IP-域名概念.mp4 ├── 005-网络基础-客户端和服务器概念.mp4…

SpreadJS + GcExcel 一出,谁与争锋 全栈表格技术轻松应对复杂公式计算场景(一)

设计思路篇 Excel是我们日常办公中最常用的电子表格程序&#xff0c;不仅可满足报表数据的计算需求&#xff0c;还可提供绘图、数据透视分析、BI和Visual Basic for Applications (VBA)宏语言编程等多项功能。经过数年发展&#xff0c;Excel已具备所有电子表格的基本能力&…

Python —— Windows10下训练Yolov5分割模型并测试

附:Python —— Windows10下配置Pytorch环境、进行训练模型并测试(完整流程,附有视频)   效果 手机拍摄一段工位视频,上传到win10训练了yolov5分割鼠标的样本后推理效果截图。 训练准备 1、查看自己下载的Yolov5源码是否存在"segment"文件夹,该文件夹下存在分…

html pc端一般宽度多少钱,pc网页设计尺寸_pc端网页设计尺寸规范

一、如果织梦网站手机端是动态地址&#xff0c;按照下面的代码来做即可 织梦PC端首页跳转到手机站首页代码(需要加到pc站头部中)&#xff1a; metahttp-equivmobile-agentcontentformatxhtml;url{dede:global.cfg_mobile/}scripttypetext/javascriptif(window.location.toS 一款…

5 6

课后作业 6 ke