深度学习:基于TensorFlow、Keras,使用长短期记忆神经网络模型(LSTM)对Microsoft股票进行预测分析

ops/2024/9/23 2:41:52/

股票交易

前言

系列专栏:机器学习:高级应用与实践【项目实战100+】【2024】✨︎
在本专栏中不仅包含一些适合初学者的最新机器学习项目,每个项目都处理一组不同的问题,包括监督和无监督学习、分类、回归和聚类,而且涉及创建深度学习模型、处理非结构化数据以及指导复杂的模型,如卷积神经网络、门控循环单元、大型语言模型和强化学习模型

在本文中,我们将使用机器学习技术实现 Microsoft 股价预测。我们将使用 TensorFlow,这是一个由 Google 开发的开源 Python 机器学习框架。借助 TensorFlow,您可以轻松实现时间序列预测数据。由于股价预测是时间序列预测问题之一,我们将使用机器学习技术构建端到端的 Microsoft 股价预测。

目录

  • 1. 相关库和数据集
    • 1.1 相关库介绍
    • 1.2 数据集介绍
    • 1.3 描述性统计
    • 1.4数据的信息
  • 2. 数据清洗与处理
  • 3. 探索性数据分析
    • 3.1 股票的开盘、收盘价
    • 3.2 股票的交易量
    • 3.3 股票不同特征之间的相关性
  • 4. 数据建模(循环神经网络模型)
    • 4.1 数据准备(拆分为训练集和测试集)
    • 4.2 模型构建(LSTM)
    • 4.3 编译和拟合
    • 4.4 模型评估

1. 相关库和数据集

1.1 相关库介绍

Python 库使我们能够非常轻松地处理数据并使用一行代码执行典型和复杂的任务。

  • Pandas – 该库有助于以 2D 数组格式加载数据框,并具有多种功能,可一次性执行分析任务。
  • Numpy – Numpy 数组速度非常快,可以在很短的时间内执行大型计算。
  • Matplotlib/Seaborn – 此库用于绘制可视化效果,用于展现数据之间的相互关系。
  • Sklearn – 包含多个库,这些库具有预实现的功能,用于执行从数据预处理到模型开发和评估的任务。
  • Tensorflow – TensorFlow 是由 Google Developers 开发的机器学习框架,旨在使机器学习算法的实现变得轻而易举。
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as snsfrom datetime import datetime
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import metrics
from keras.metrics import RootMeanSquaredError 
from sklearn.preprocessing import StandardScalerimport warnings 
warnings.filterwarnings("ignore") 

1.2 数据集介绍

现在,让我们加载包含可交易天数的 Microsoft 股票的 OHLC 数据的数据集。

df = pd.read_csv('Microsoft_Stock.csv') 

.head()函数根据位置返回对象的前 n 行。该函数可用于快速测试对象中的数据类型是否正确。

df.head()

数据对象的前五行

1.3 描述性统计

.describe()生成描述性统计信息。描述性统计包括总结数据集分布的中心倾向、分散性和形状的统计,不包括 NaN 值。

可分析数值序列和对象序列,以及混合数据类型的 DataFrame 列集。输出结果将根据所提供的数据而有所不同。

df.describe()

描述性统计

1.4数据的信息

.info()方法打印有关DataFrame的信息,包括索引dtype和列、非null值以及内存使用情况。

df.info()

数据的信息

2. 数据清洗与处理

更改 Date 的数据类型,将object的对象转化为datetime类型

df['Date'] = df['Date'].apply(lambda x: datetime.strptime(x, "%m/%d/%Y %H:%M:%S"))
df['Date']

datetime对象

3. 探索性数据分析

EDA是一种使用视觉技术分析数据的方法。它用于发现趋势和模式,或借助统计摘要和图形表示来检查假设。

3.1 股票的开盘、收盘价

plt.style.use("fivethirtyeight")
plt.plot(df['Date'], df['Open'], color="blue", label="open") 
plt.plot(df['Date'], df['Close'], color="green", label="close") 
plt.title("Microsoft Open-Close Stock") 
plt.legend() 

股票的开盘与收盘价

3.2 股票的交易量

交易量是指一段时间内(通常是一天内)易手的资产或证券的数量。例如,股票交易量是指每天开盘和收盘之间交易的证券股票数量。交易量以及交易量随时间的变化是技术交易者的重要输入。

plt.plot(df['Date'], df['Volume']) 
plt.show()

股票的交易量

3.3 股票不同特征之间的相关性

相关性是一种衡量两个变量相对于彼此移动程度的统计数据,其值必须介于-1.0和+1.0之间。相关性衡量关联,但不显示 x 是否导致 y,反之亦然,或者关联是否由第三个因素引起。

sns.heatmap(df.corr(), annot=True, cbar=False) 
plt.show() 

股票不同特征之间的相关性
现在,让我们绘制 2015 年至 2021 年期间 Microsoft 股票的收盘价,即 6 年的时间跨度。
在这里插入图片描述

4. 数据建模(循环神经网络模型)

4.1 数据准备(拆分为训练集和测试集)

# prepare the training set samples 
msft_close = df.filter(['Close']) 
dataset = msft_close.values 
training = int(np.ceil(len(dataset) *.95)) # scale the data 
ss = StandardScaler() 
ss = ss.fit_transform(dataset) train_data = ss[0:int(training), :] x_train = [] 
y_train = [] # considering 60 as the batch size, 
# create the X_train and y_train 
for i in range(60, len(train_data)): x_train.append(train_data[i-60:i, 0]) y_train.append(train_data[i, 0]) x_train, y_train = np.array(x_train), np.array(y_train) 
X_train = np.reshape(x_train, (x_train.shape[0], x_train.shape[1], 1)) 

4.2 模型构建(LSTM)

为了解决时间序列或股价预测问题,我们建立了一个循环神经网络模型,该模型可以利用单元状态和记忆状态记忆之前的状态,非常方便。由于 RNN 难以训练和修剪消失梯度,我们使用了 LSTM,它是 RNN 的门控单元,LSTM 可以减少消失梯度问题。

model = keras.models.Sequential() 
model.add(keras.layers.LSTM(units=64, return_sequences=True, input_shape =(X_train.shape[1], 1))) 
model.add(keras.layers.LSTM(units=64)) 
model.add(keras.layers.Dense(128)) 
model.add(keras.layers.Dropout(0.5)) 
model.add(keras.layers.Dense(1)) print(model.summary()) 

LSTM

4.3 编译和拟合

在编译模型时,我们需要提供以下三个基本参数:

optimizer - 通过梯度下降法优化成本函数的方法。
loss - 损失函数,我们通过它来监控模型是否在训练中不断改进。
metrics - 通过预测训练数据和验证数据来评估模型。

model.compile(optimizer='adam', loss='mae', metrics = [metrics.MeanSquaredError(), metrics.AUC()]) history = model.fit(X_train, y_train, epochs=20) 

编译拟合过程
我们得到的平均绝对误差为 0.0661,接近完美误差分值。

4.4 模型评估

现在,我们已经准备好了模型,让我们用不同的指标来评估它在验证数据上的性能。为此,我们将首先使用该模型预测验证数据的类别,然后将输出结果与真实标签进行比较。

testing = ss[training - 60:, :] 
x_test = [] 
y_test = dataset[training:, :] 
for i in range(60, len(testing)): x_test.append(testing[i-60:i, 0]) x_test = np.array(x_test) 
X_test = np.reshape(x_test, (x_test.shape[0], x_test.shape[1], 1)) pred = model.predict(X_test) 

模型评估
现在,让我们绘制微软股票价格的已知数据和预测价格趋势图,看看它们是与之前的趋势一致,还是完全不同。

train = df[:training] 
test = df[training:] 
test['Predictions'] = pred plt.figure(figsize=(10, 8)) 
plt.plot(train['Close'], c="b") 
plt.plot(test[['Close', 'Predictions']]) 
plt.title('Microsoft Stock Close Price') 
plt.ylabel("Close") 
plt.legend(['Train', 'Test', 'Predictions']) 

在这里插入图片描述


http://www.ppmy.cn/ops/31059.html

相关文章

探索科技园区的创新应用架构

在当今科技快速发展的时代,科技园区已经成为了创新和技术发展的孵化器和聚集地。在这样的环境中,科技园区的应用架构扮演着至关重要的角色,它不仅需要支持各种创新型企业和科技项目的发展,还需要提供高效的技术基础设施和服务。下…

golang学习笔记(内存模型和分配机制)

操作系统的存储管理 虚拟内存管理 虚拟内存是一种内存管理技术,它允许操作系统为每个进程提供一个比实际物理内存更大的地址空间。这个地址空间被称为虚拟地址空间,而实际的物理内存则被称为物理地址空间。使用虚拟内存有以下几点好处: 内…

05 华三交换机原理

交换机的工作原理(第三十课)-CSDN博客 1 华三交换机原理 交换机是一种网络设备,用于在局域网(LAN)中实现数据帧的转发和过滤。其工作原理基于MAC地址表,它可以学习、过滤和转发帧到正确的端口。以下是交换机的基本工作原理: 1. 学习阶段: - 当设备首次发送数据包时,…

Node 【切换commonjs模块和esm模块】【配置esm模块规范的坑】

文章目录 前言一、在commonjs规范中使用esm模块二、在esm规范中使用commonjs模块三、在node中使用esm规范的坑 前言 node有两种模块规范 一种是以export导出,import引入的esm模块规范。即.js文件会被视为es6模块,采取解析一种是以module.exports导出,require引入的…

【软件工程】详细设计

目录 前言详细设计算法设计工具——判定表 前言 软件工程生命周期分为八个阶段: 问题定义—>可行性研究—>需求分析 —>概要设计—>详细设计—>编码与单元测试 —>综合测试—>软件维护 这节我们讲的是软件开发流程中的一个阶段,需求…

从零开始学AI绘画,万字Stable Diffusion终极教程(二)

【第2期】关键词 欢迎来到SD的终极教程,这是我们的第二节课 这套课程分为六节课,会系统性的介绍sd的全部功能,让你打下坚实牢靠的基础 1.SD入门 2.关键词 3.Lora模型 4.图生图 5.controlnet 6.知识补充 在第一节课里面,我们…

MyBatis 使用 XML 文件映射

在MyBatis中 我们可以使用各种注解来配置我们Mapper 类中的方法 我们为什么要使用XML文件呢? 如果我们是一条非常长的SQL 语句 使用 注解配置的话, 会非常不利于阅读 如下 所以,就需要使用到一个XML文件来对SQL语句进行映射,那么 …

华为平板手机如何清理应用市场的存储空间

如何清理应用市场的存储空间 适用产品: 手机,平板 适用版本:不涉及系统版本 如果您的应用市场显示应用的数据较大,可能是下载的安装包没有安装成功,导致安装包未自动删除。(可参考:应用市场下…