1.金融数据
金融数据分为:交易数据(低频数据,高频数据,超高频数据),报表数据(财务报表,研报),金融社交媒体数据
低频数据: 以日、周、月、季、年为频度的金融数据
高频数据: 日内的金融时间序列,以小时、分钟或秒为频率的、按时间先后顺序排列的金融数据
超高频金融时间序列: 市场上每笔交易的实时数据,与高频数据的最大区别为时间间隔可变
公司基本面数据:季报,中报
研报数据:个股/行业研报
近些年来,金融媒体数据对于广大投资者的预期影响逐步扩大,其通过对投资者的预期控制来影响股市的变化趋势。之所以会形成这样的现象,是因为人是非理性的,这种非理性情绪因素会促使投资者更倾向于接受其所拥有的私人信息,忽略其他真实信息,产生心理偏差,影响其进行合理交易决策,具体表现为羊群效应、锚定效应、过度自信等。所以对于股市分析来说,研究投资者行为至关重要量化投资者行为,与股价预测、算法交易等应用相结合,再利用机器学习/深度学习等方法对金融社交媒体文本数据进行情感分析投资者心理偏差对金融信息传播过程的影响
2.金融数据分析
金融数据分析是数据分析在金融领域的拓展,其主要是挖掘金融数据 (交易数据、报表数据、社交媒体数据)的隐藏价值。可以概括为
-
总结过去
-
探究现状
-
预测未来
金融数据分析方法
金融时间序列分析:使用传统金融计量学对某一变量的时间序列的过去进行分析,以此对该变量的变化特性建模、并对未来进行预测。(关注本专栏,今后将会发布详尽的算法实例,如循环神经网络(RNN)、一维卷积神经网络(1D-CNN)、Transformer、自回归模型(AR)、状态空间模型、支持向量机(SVM)和随机森林(RF)等) 统计学方法: ·VAR向量自回归模型:将系统中每一个内生变量作为系统中所有内生变量的滞后值的函 数来构造模型,用来估计联合内生变量的动态关系 ·GARCH族模型:广义自回归条件异方差模型,是ARCH模型的扩展,一般用来模拟时间 序列变量的波动性的变化
量化交易:建立价格变化分析模型并由模型来决定买卖时机的交易方式, 包括算法交易、趋势交易、高频交易等多种类型
根据算法主动程度不同,可分为被动型,算法交易和主动型算法交易两大类型。
被动型算法: ·被动型算法除了利用历史数据估计交易模型的关键参数外,不会根据市场的状况主动选择交 易的时机与交易的数量,而是按照一个既定的交易方针进行交易 ·核心是减少滑价(目标价与实际成交均价的差) ·以成交量加权平均价格(VWAP)、时间加权平均价格(TWAP)为代表 主动型算法: ·主动型算法根据市场的状况做出实时的决策,判断是否交易、交易的数量、交易的价格等 ·其把关注的重点逐渐转向了价格趋势预测上,如判断市场价格在向有不利于交易的方向运 动时,就推迟交易的进行,反之加快交易的速度
时间加权平均价格算法(TWAP)
该模型将交易时间进行均匀分割,并在每个分割节点上将均匀拆分的订单进行提交。 例如,A股市场一个交易日的交易时间为4小时,即240分钟,首先将这240分钟均匀分为N份(或将240分钟中的某一部分均匀)如 先把240分钟均分成240份,然后再均匀拆分每一份上的订单。 TWAP策略会将该交易日需要执行的订单均匀分配在这240个节点上去执行,使得交易均价跟踪。
优:可以以最小化交易对市场的影响并且提供一个较低的平均价格来减小交易成本。
劣:嗯,因为真实市场的成交量在经营分配的每个节点上的分布是有其特征的。且对于大规模订单,仍然无法较好的达到处理目的。
成交量加权平均价格算法(VWAP)
是目前最为流行的算法交易策略之一,表示一段时间内股票价格按成交量加权的平均值。 price_t 和volume_t分别是某个时间点上股票成交价格和成交量。 WAP策略包含: 宏观层面:解决如何拆分大额委托单的问题,需要投资者对股票的日内成交量做出预测。 微观层面:确定是用限价单还是市价单来发出交易指令,考虑到VWAP是一种被动跟踪市场均价的策略,通常采用市价委托方式。
趋势交易即顺着趋势的方向交易,属于常见的主动型算法 使用移动平均线:分为短、中、长期移动平均线,5/10天为短期均线,称做日均线指标;30/60天为中期均线,称做季均线指标;120/240天为长期均线,称做年均线指标。 使用通道指标:一般是指股价在一定范围内的上下波动通道,上轨一般有压力作用,线下轨一般有支持作用,如布林通道、唐安奇通道等。