Python 语言用 StatsModels 实现销售额时间序列预测 ARIMA 模型

Python 语言使用 StatsModels 实现销售额时间序列预测（ARIMA 模型）

时间序列分析是统计学中的一个重要分支，它用于分析数据随时间变化的规律。在商业领域，时间序列分析可以帮助企业预测未来的销售额、库存需求等，从而做出更明智的决策。ARIMA（自回归积分滑动平均模型）是时间序列分析中常用的一种模型，它能够捕捉时间序列数据的自相关性、趋势性和季节性。

本文将使用 Python 语言和 StatsModels 库来实现 ARIMA 模型，并对销售额时间序列数据进行预测。我们将从数据预处理开始，逐步介绍 ARIMA 模型的原理、参数选择、模型拟合和预测。

1. 数据预处理

在开始建模之前，我们需要对数据进行预处理，包括数据清洗、数据转换等。

1.1 数据清洗

我们需要确保数据集没有缺失值、异常值等。以下是一个简单的数据清洗示例：

python import pandas as pd


 加载数据

data = pd.read_csv('sales_data.csv')
 检查缺失值

print(data.isnull().sum())
 删除缺失值

data.dropna(inplace=True)
 检查异常值

print(data.describe())

删除异常值 data = data[(data['sales'] >= data['sales'].quantile(0.05)) & (data['sales'] <= data['sales'].quantile(0.95))]

1.2 数据转换

为了更好地拟合 ARIMA 模型，我们需要对数据进行转换，使其满足平稳性要求。以下是一个简单的数据转换示例：

python from statsmodels.tsa.stattools import adfuller


 检查数据平稳性

def check_stationarity(timeseries):

    dftest = adfuller(timeseries, autolag='AIC')

    return dftest[1]   返回 p 值
 对数据进行差分

def difference(timeseries, order):

    return timeseries.diff(order).dropna()
 检查数据平稳性

p_value = check_stationarity(data['sales'])

print('P-value:', p_value)

如果数据不平稳，进行差分 if p_value > 0.05: data['sales_diff'] = difference(data['sales'], 1) p_value = check_stationarity(data['sales_diff']) print('P-value after differencing:', p_value)

2. ARIMA 模型原理

ARIMA 模型由三个参数组成：p（自回归项数）、d（差分阶数）、q（移动平均项数）。其中，p 和 q 决定了模型的拟合程度，d 决定了数据的平稳性。

2.1 自回归项（AR）

自回归项表示当前值与过去值之间的关系。AR(p) 模型可以表示为：

$$
y_t = c + phi_1 y_{t-1} + phi_2 y_{t-2} + ldots + phi_p y_{t-p} + epsilon_t
$$

其中，$y_t$ 表示当前值，$c$ 表示常数项，$phi_1, phi_2, ldots, phi_p$ 表示自回归系数，$epsilon_t$ 表示误差项。

2.2 移动平均项（MA）

移动平均项表示当前值与过去误差之间的关系。MA(q) 模型可以表示为：

$$
y_t = c + theta_1 epsilon_{t-1} + theta_2 epsilon_{t-2} + ldots + theta_q epsilon_{t-q} + epsilon_t
$$

其中，$theta_1, theta_2, ldots, theta_q$ 表示移动平均系数，$epsilon_t$ 表示误差项。

2.3 ARIMA 模型

ARIMA(p, d, q) 模型结合了 AR 和 MA 模型，可以表示为：

$$
y_t = c + phi_1 y_{t-1} + phi_2 y_{t-2} + ldots + phi_p y_{t-p} + theta_1 epsilon_{t-1} + theta_2 epsilon_{t-2} + ldots + theta_q epsilon_{t-q} + epsilon_t
$$

其中，$c$ 表示常数项，$phi_1, phi_2, ldots, phi_p, theta_1, theta_2, ldots, theta_q$ 分别表示自回归系数和移动平均系数，$epsilon_t$ 表示误差项。

3. 参数选择

选择 ARIMA 模型的参数是一个复杂的过程，通常需要通过以下步骤进行：

3.1 ACF 和 PACF 图

ACF（自相关函数）和 PACF（偏自相关函数）图可以帮助我们选择 ARIMA 模型的参数。以下是一个绘制 ACF 和 PACF 图的示例：

python from statsmodels.graphics.tsaplots import plot_acf, plot_pacf

绘制 ACF 和 PACF 图 plot_acf(data['sales_diff'], lags=20) plot_pacf(data['sales_diff'], lags=20)

3.2 模型比较

我们可以通过比较不同 ARIMA 模型的 AIC（赤池信息量准则）值来选择最佳模型。以下是一个比较不同 ARIMA 模型的示例：

python from statsmodels.tsa.arima.model import ARIMA


 定义 ARIMA 模型

models = []

aics = []

for p in range(3):

    for d in range(3):

        for q in range(3):

            try:

                model = ARIMA(data['sales'], order=(p, d, q))

                results = model.fit()

                models.append(results)

                aics.append(results.aic)

            except:

                continue

选择 AIC 最小的模型 best_model = models[aics.index(min(aics))] print('Best model:', best_model.summary())

4. 模型拟合和预测

在选择了最佳 ARIMA 模型后，我们可以使用该模型对数据进行拟合和预测。

4.1 模型拟合

以下是一个使用最佳 ARIMA 模型进行拟合的示例：

python 使用最佳模型进行拟合 best_results = best_model.fit()

拟合结果 print(best_results.summary())

4.2 预测

以下是一个使用最佳 ARIMA 模型进行预测的示例：

python 预测未来 12 个月的销售数据 forecast = best_results.get_forecast(steps=12) forecast_index = pd.date_range(start=data.index[-1], periods=13, freq='M') forecast_df = pd.DataFrame(forecast.predicted_mean, index=forecast_index, columns=['sales'])


 绘制预测结果

import matplotlib.pyplot as plt

plt.figure(figsize=(10, 5)) plt.plot(data['sales'], label='Actual Sales') plt.plot(forecast_df, label='Forecasted Sales') plt.title('Sales Forecast') plt.xlabel('Date') plt.ylabel('Sales') plt.legend() plt.show()

结论

本文介绍了使用 Python 语言和 StatsModels 库实现 ARIMA 模型进行销售额时间序列预测的方法。通过数据预处理、模型原理、参数选择、模型拟合和预测等步骤，我们可以对销售额时间序列数据进行有效的预测。

在实际应用中，我们需要根据具体的数据和业务需求调整模型参数，并对预测结果进行评估和优化。希望本文能够为读者提供一些有价值的参考。

Python 语言用 StatsModels 实现销售额时间序列预测 ARIMA 模型

Raku 语言函数的参数默认值使用 // 提供默认表达式

Raku 语言类型签名的多态性接受多种类型的参数

Comments NOTHING

取消回复

Raku 语言 函数的参数默认值 使用 // 提供默认表达式

Raku 语言 类型签名的多态性 接受多种类型的参数

Comments NOTHING

取消回复

Raku 语言函数的参数默认值使用 // 提供默认表达式

Raku 语言类型签名的多态性接受多种类型的参数