LSTM原理+实战(Python)

35 阅读 0 评论 0 点赞

LSTM（长短期记忆网络，Long Short-Term Memory）是一种特殊的循环神经网络（RNN）架构，旨在解决传统RNN在学习长序列数据时存在的梯度消失和梯度爆炸问题。LSTM通过引入记忆单元和门控机制，使模型能够更好地捕捉长期依赖关系。

LSTM的基本结构

LSTM的核心是其记忆单元和三个主要的门：输入门、遗忘门和输出门。

遗忘门（Forget Gate）：决定哪些信息需要被丢弃。通过一个sigmoid激活函数，根据当前输入和前一时刻的隐状态输出一个介于0和1之间的值。

[ f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ]

输入门（Input Gate）：决定哪些新的信息将被存储在记忆单元中。分为两个步骤，首先使用sigmoid函数决定哪些信息需要更新，然后用tanh激活函数生成一个新的候选值。

[ i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) ] [ \tilde{C_t} = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) ]

输出门（Output Gate）：根据当前单元状态来决定输出的值。

[ o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) ] [ h_t = o_t \cdot \tanh(C_t) ]

记忆单元更新：根据遗忘门和输入门的输出，更新记忆单元。

[ C_t = f_t * C_{t-1} + i_t * \tilde{C_t} ]

LSTM实战（Python）

下面我们将通过一个简单的例子来演示如何使用LSTM进行时间序列预测。我们将使用Keras库构建LSTM模型。

数据准备

首先我们需要生成一些时间序列数据并进行预处理。

import numpy as np
import matplotlib.pyplot as plt
from sklearn.preprocessing import MinMaxScaler

# 生成简单的正弦波数据
data = np.sin(np.linspace(0, 100, 1000))
data = data.reshape(-1, 1)

# 归一化
scaler = MinMaxScaler(feature_range=(0, 1))
normalized_data = scaler.fit_transform(data)

# 划分训练集和测试集
train_size = int(len(normalized_data) * 0.8)
train_data = normalized_data[:train_size]
test_data = normalized_data[train_size:]

# 准备输入输出数据集的函数
def create_dataset(data, time_step=1):
    X, Y = [], []
    for i in range(len(data) - time_step - 1):
        X.append(data[i:(i + time_step), 0])
        Y.append(data[i + time_step, 0])
    return np.array(X), np.array(Y)

# 设置时间步长
time_step = 10
X_train, y_train = create_dataset(train_data, time_step)
X_test, y_test = create_dataset(test_data, time_step)

# 转换为LSTM需要的格式
X_train = X_train.reshape(X_train.shape[0], X_train.shape[1], 1)
X_test = X_test.reshape(X_test.shape[0], X_test.shape[1], 1)

构建LSTM模型

接下来，我们构建LSTM模型并进行训练。

from keras.models import Sequential
from keras.layers import LSTM, Dense

# 构建LSTM模型
model = Sequential()
model.add(LSTM(50, return_sequences=True, input_shape=(X_train.shape[1], 1)))
model.add(LSTM(50, return_sequences=False))
model.add(Dense(1))

# 编译模型
model.compile(optimizer='adam', loss='mean_squared_error')

# 训练模型
model.fit(X_train, y_train, epochs=50, batch_size=32)

预测与可视化

训练完成后，我们可以对测试集进行预测并进行可视化。

# 进行预测
train_predict = model.predict(X_train)
test_predict = model.predict(X_test)

# 反归一化
train_predict = scaler.inverse_transform(train_predict)
test_predict = scaler.inverse_transform(test_predict)

# 绘制结果
plt.figure(figsize=(12, 6))
plt.plot(data, label='Original Data')
plt.plot(np.arange(time_step, len(train_predict) + time_step), train_predict, label='Train Predict')
plt.plot(np.arange(len(train_predict) + (time_step * 2) + 1, len(data) - 1), test_predict, label='Test Predict')
plt.legend()
plt.show()

通过以上代码示例，我们实现了用LSTM进行时间序列预测的全过程。LSTM能够有效地学习数据中的时间依赖性，适用于各种序列数据的预测任务。

点赞(0) 打赏

本文分类：后端
本文标签：深度学习 lstm 人工智能 python
浏览次数：35 次浏览
发布日期：2024-09-24 12:32:57
本文链接：http://makehui.com/houduan/1046.html

上一篇 > 解决：pip is configured with locations that require TLS/SSL,the ssl module in Python is not available
下一篇 > Python头歌实验题目（2024版）

LSTM原理+实战(Python)

LSTM的基本结构

LSTM实战（Python）

数据准备

构建LSTM模型

预测与可视化

微信扫一扫：分享

【Py/Java/C++三种语言OD独家2024E卷真题】20天拿下华为OD笔试之【模拟】2024E-转骰子【欧弟算法】全网注释最详细分类最全的华为OD真题题解

初级爬虫实战——巴黎圣母院新闻

Python 3.12 环境搭建（Windows版）

Python 列表全方位解析：创建、操作、删除与遍历的全面指南

微信扫一扫：分享