利用ARIMA模型进行卷烟销售预测

2009-12-30来源：湖南省烟草专卖局作者：黄宇红

　　时值年末，各卷烟企业在布置来年卷烟销售任务时，对卷烟销售进行预测是十分有必要的。利用ARIMA模型进行卷烟销售预测是一个十分有用的方法。

　　ARIMA方法是时间序列预测中的一种有效的方法。为了提高卷烟销售预测准确性，笔者提出了一个基于ARIMA（Auto－Regressive　Integrated　Moving　Average　Model，整合自回归移动平均模型）的卷烟销售预测模型，以实现月度、季度卷烟销售总量的预测。经过实证分析，证明该模型能够较好地预测出月度、季度卷烟销售总量。

　　一.理论前提和模型简介

　　卷烟销售具有时间序列二重趋势变化的特点，即整体趋势变动性和季节波动性。二重趋势预测的特点是观察值排列顺序的重要性和前后观察值及其同期比之间的相关性，即预测点与其相距较近的观察点的相关性较强，而与其相距较远的观察点相关性较弱。二重趋势预测通常的方法有线性回归法、神经网络、时间序列分析法等[1]。时间序列分析法能够根据历史数据对卷烟销售进行客观分析，并能实现对卷烟销售的季节性和周期性进行预测。传统的时间序列分析法，如移动平均法和指数平滑法，常因出现滞后误差而影响预测精度。而ARMA模型是描述平稳随机序列的最常用的一种模型，是目前最好的单一变量随机时序预测法。但现实中的时间序列往往是非平稳的，因此，我们经常使用的是时间序列分析的ARIMA模型。

　　时间序列分析的ARIMA建模法，也叫做Box-Jenkins法，它是一种以美国统计学家Geogre.E.P.Box和英国统计学家Gwilym　M.Jenkins的名字命名的时间序列预测方法。它主要是在对时间序列进行分析的基础上，选择适当的模型进行预测。ARIMA模型也叫做整合自回归移动平均模型（Auto－Regressive　Integrated　Moving　Average　Model）。Box-Jenkins法的基本思想是用时间序列的过去值和现在值的线性组合来预测其未来值。也就是说，将时间推移而形成的系列数据视为一个随机序列，把时间序列作为一组仅依赖于时间t的随机变量，这组随机变量所具有的依存关系或自相关性表现了其所观测对象发展的延续性。而这种相关性一旦被相应的数学模型描述出来，就可以从时间序列的过去值及现在值，去预测其未来值^[2]。

　　时间序列由长期趋势、季节变动、循环波动和不规则变动4个部分组成。时间序列是相同事物或现象在不同时期形成的数据，反映了事物、现象在时间上的发展变化情况。

　　ARIMA模型利用大量的历史数据来建模，经过模型识别、参数估计来确定一个能够描述所研究时间序列的数学模型，最后再由该模型推导出预测模型，进而达到预报的目的。ARMA模型有三种基本形式：自回归模型（autoregressive，AR）、移动平均模型（movingaverage，MA）以及自回归移动平均模型（或混合模型）（auto-regressive　Moving　Average，ARMA）^[3]。

　　1.自回归模型AR（p）

　　如果时间序列{yt}满足：

　　y_t=φ_1yt-1+…+φ_pyt-p+ε_t了（1）

　　其中：{ε_t}是独立分布的随机变量序列，并且对于任意的t，E（ε_t）=0，Var（ε_t）=>0，则称时间序列{y_t}服从p阶自回归模型，记为AR（p）。φ₁，…，φp称为自回归系数。

　　记B^k为k步滞后算子，即B^ky_t=y_t-1，则模型（1）可表示为：

　　y_t=（φ₁B+…+φ_pB^P）y_t+ε_t

　　令φ（B）=1-φ₁B-…-φ_pB^P，则模型（1）可以表示为：

　　φ（B）yt=εt

　　AR（p）平稳的条件是滞后算子多项式φ（B）=1-φ₁B-…-φ_pB^P的根均在单位圆外，即φ（B）=0的根大于1。

　　2.移动平均模型MA（q）

　　如果时间序列{yt}满足：

　　y_t=ε_t–θ₁ε_t-1–…–θ_qyt-q（2）

　　则称时间序列{y_t}服从q阶移动平均模型，记为MA（q）。θ₁，…，θq称为移动平均系数。

　　若用滞后算子B_k表示，令θ（B）=1-θ₁B-…-θ_qB^P，则模型（2）可写成：

　　y_t=θ（B）ε_t

　　任何条件下，MA（q）模型都是平稳的。

　　3.自回归移动平均模型ARMA（p，q）

　　如果时间序列{y_t}满足：

　　y_t=φ_1yt-1+…+φ_py_t-p+εt-–θ₁ε_t-1–…–θ_qyt-q

　　则称时间序列{yt}服从（p，q）阶自回归移动平均模型，记为ARMA（p，q）。φ1，…，φp称为自回归系数，θ₁，…，θ_q称为移动平均系数。

　　对于ARMA（p，q）模型，当q=0，模型即为AR（p）模型；当p=0时，模型即为MA（q）模型。

　　如果用滞后算子B^k表示，则ARMA（p，q）模型可写为：

　　φ（B）y_t=θ（B）ε_t

　　二.基于ARIMA模型的卷烟销售预测框架

　　1.收集数年卷烟销售数据。

　　2.数据序列的平稳化。建立ARMA模型的基本前提是保证时间序列的平稳性。ARIMA建模的过程则是把非平稳时间序列平稳化，再建立ARMA模型。模型中的p和q一旦确定下来，则ARIMA模型便可确定。因此，首先要做的分析工作便是确定p和q的具体取值，然后再对ARMA（p，q）模型进行参数估计及显著性检验。最后利用显著的模型对时间序列进行预测。

　　3.计算自相关和偏相关系数，检验预处理后的数据是否符合ARMA建模要求。

　　4.ARIMA模型的识别。根据自相关系数（AC）及偏相关系数（PAC）的截尾性，初步判别序列属于哪类模型以及模型阶次，应用AIC准则为模型定阶。

　　5.参数估计后，对ARIMA模型的适合性进行检验，即对模型的残差序列进行白噪声检验，如果不能通过，则必须对模型重新进行定阶。

　　6.用ARIMA模型预测月度卷烟销售量，以此数据可以指导烟草公司的月度和季度卷烟的销售。

　　三.某烟草公司卷烟销售模型分析

　　1.整理数据。

　　本文所用数据为某烟草公司近四年多的卷烟销售量，如表1所示。

　　表1卷烟历史销售数据

图1卷烟销售曲线图

　　由图1可明显看出，卷烟销售数据具有整体均势变动性和季节波动性，具备时间序列二重趋势变化特点。

　　2.数据序列平稳化

　　由图1可看出数据序列有趋势性，为非平稳序列，需对其进行平稳化处理。对数据进行一阶差分后的序列图如图2。

图2一阶差分后的序列图

　　图2可以看出已经消除了趋势性，但仍具有季节性，做季节差分，如图3。

图3、季节差分后的序列图

　　3.计算自相关和偏相关系数，检验预处理后的数据是否符合ARMA建模的要求。

　　一阶差分、季节差分后的序列的相关系数和偏相关系数如图4所示。

图4、季节差分序列的相关系数和偏相关系数

　　由上图可以看到，时间序列的自相关系数基本上都落入了置信区间，且逐渐趋于零。可以判断该时间序列平稳。

　　4.ARMA模型的识别、参数估计及检验：

　　以AIC原则定阶。AIC准则称为最小信息的辨识模型阶数准则。该准则的基本思想是，根据模型的预报误差来判断自回归模型的阶数是否合适，如果某个适用的自回归模型是由某一序列拟合得来的，则利用该模型对序列进行一步预测，所得的预测误差必定是最小的。由此得出最优模型为：Log　ARIMA（0，1，2）（0，1，1）s　NOINT。

　　模型Log　ARIMA（0，1，2）（0，1，1）s　NOINT残差项的ACF、PACF、IACF图如下：