【从零开始玩量化19】量化数据处理全流程

news/2024/12/1 0:34:54/

工欲善其事,必先利其器

本文总结我认为好用的量化数据工具,工具基本都使用python语言。本文只做系统性总结归纳,每个工具的具体用法,请参看各工具主页链接。

1. 数据获取

这是一切的源头,所以我们需要功能强大且稳定的数据获取工具。

AKShare

主页:https://akshare.xyz/

AKShare是目前我发现的最完善的开源、免费量化数据获取工具,作者水平在线,持续维护,更新速度快。其本质是网络爬虫,自己并不提供数据源。支持股票、指数、基金、债券、期货等全品类的数据接口。

优势:接口全网最丰富,源码质量高,更新维护快。

pywencai

主页:https://github.com/zsrl/pywencai

pywencai是获取同花顺问财数据的开源python库,作者是我本人,它可以很方便的获取同花顺问财问句返回的数据。

优势:问财应用了AI技术,具备完善的自然语言处理能力,可以根据问句获取多种组合的数据。

xtdata

主页:http://docs.thinktrader.net/vip/pages/4a989a/

xtdata是miniQMT的一个模块,可以获取稳定的交易数据和财务数据,并具有行情实时订阅推送功能。

优势:具备稳定的数据源,数据粒度细,适合用作回测或实盘。

《QMT开通规则分享》

2. 数据处理

获取回来的数据,很可能是很“脏”的,我们需要对数据进行清洗、处理。

pandas

主页:https://pandas.pydata.org/

pandas可以说是数据处理的必备技能,也是量化投资必学的技能,他可以很方便的处理一个数据序列或者一个数据表。

3. 数据存储

数据存储,有很多种方式,我个人的思路是,不需要追求过于复杂和精妙的存储方式,适合自己就行。

csv(文件)

csv是最常见的一种二维数据表存储方式,可以使用pandas直接读取。

json(文件)

json是web领域最常见的数据格式,量化领域,可以作为辅助配置文件,进行使用,不建议用它存储时序数据。

HDF5(文件)

主页:https://www.hdfgroup.org/solutions/hdf5/

HDF5是一种高性能数据存储文件格式,pandas原生支持。

Feather(文件)

主页:https://github.com/wesm/feather

Feather是Apache Arrow的静态数据存储格式,可以快速操作DataFrame数据,pandas原生支持。

Parquet(文件)

主页:https://parquet.apache.org/

Apache Parquet 是一种开源的、面向列的数据文件格式,专为高效的数据存储和检索而设计。pandas原生支持。

sqlite(文件型数据库)

主页:https://www.sqlite.org/

sqlite是文件,也是数据库,可以支持SOL查询,适合关系型数据的存储,python内置支持对sqlite的操作。

4. 总结

其他的数据库还有很多,比如mongoDB,mysql,influxedDB等,但这些数据库部署比较复杂,除非你要做很完善的数据系统,不然我认为没必要,会浪费很多时间,增加问题的复杂度。

点击获取 >《从零开始玩量化》全套教程


http://www.ppmy.cn/news/382715.html

相关文章

计算机机房ups供电时间多少,机房ups电源供电时间及要求有哪些?

ups电源使用的场所是非常之多,像机房ups电源在使用供电上的标准是根据实际配置的大小进行定义的。比如有些供电时间是4小时,有些是8小时,还有一些达到十几个小时之多,其主要是根据现场设备的需求性进行定义,然后进行专…

UPS电源设备消防与电气安全要求

UPS电源是机房中容易起火的设备之一,在机房的日常维护中,一定要重视UPS的维护,并配备相应的消防灭火系统。  1 灭火设施 UPS蓄电池室应设置气体灭火系统或细水雾灭火系统。当采用管网式气体灭火系统时,蓄电池室应同时设置两组独立…

2023成都电源工业展览会

时 间:2023年7月13~15日 地 点:成都世纪城新国际会展中心 30000㎡展出面积 500参展商 50000名专业观众 ◆ 》》》展会回顾: 电子信息技术的快速进步,对电源的品质要求也越来越严格,由于我国是能…

Python 函数进阶、匿名函数lambda

多返回值 位置参数、关键字传参 函数作为参数传递 函数做为参数传入另外一个函数 计算逻辑的传递,而非数据的传递 匿名函数

MM32F3273G8P火龙果开发板MindSDK开发教程18 -sfud库的移植

MM32F3273G8P火龙果开发板MindSDK开发教程18 -sfud库的移植 1、sfud简介 SFUD (Serial Flash Universal Driver) 串行 Flash 通用驱动库 推荐查看官方文档:一款使用 JEDEC SFDP 标准的串行 (SPI) Flash 通用驱动库 2、实验设备 主控:MM32F3273G8P火龙…

[Daimayuan] 赢救瓜瓜(C++,字符串哈希)

题目描述 瓜瓜特工接到了一个新任务——保护CB直到毕业。 于是瓜瓜就装作实验室的集训队员潜伏在集训队,同时暗中保护CB的安全,并装弱让CB不要对ACM丧失信心。 某天早上,瓜瓜发现CB不在实验室,便打了个电话。 电话接通了&#xf…

【007 基础知识】驱动里面为什么要有并发、互斥的控制?如何实现?讲个例子?

一、为什么要有并发和互斥控制? 并发指的是多个执行单元同时、并行被执行,而并发的执行单元对共享资源(硬件资源和软件上的全局变量、静态变量等)的访问则很容易导致竞态 。 解决竞态问题的途径是保证对共享资源的互斥访问。 所谓…

三星是android吗,三星Android手机还是世界最好吗?非也

【搜狐IT消息】北京时间5月10日消息,三星的Android手机还是世界上最好的吗?至少科瓦奇(Steve Kovach)不这么认为,他是一位外国知名产品评论家。 1、科瓦奇认为Galaxy S4比HTC ONE要差,不只他这样认为,这几乎是评论界的…