时值年末,各卷烟企业在布置来年卷烟销售任务时,对卷烟销售进行预测是十分有必要的。利用ARIMA模型进行卷烟销售预测是一个十分有用的方法。
ARIMA方法是时间序列预测中的一种有效的方法。为了提高卷烟销售预测准确性,笔者提出了一个基于ARIMA(Auto-Regressive Integrated Moving Average Model,整合自回归移动平均模型)的卷烟销售预测模型,以实现月度、季度卷烟销售总量的预测。经过实证分析,证明该模型能够较好地预测出月度、季度卷烟销售总量。
一.理论前提和模型简介
卷烟销售具有时间序列二重趋势变化的特点,即整体趋势变动性和季节波动性。二重趋势预测的特点是观察值排列顺序的重要性和前后观察值及其同期比之间的相关性,即预测点与其相距较近的观察点的相关性较强,而与其相距较远的观察点相关性较弱。二重趋势预测通常的方法有线性回归法、神经网络、时间序列分析法等[1]。时间序列分析法能够根据历史数据对卷烟销售进行客观分析,并能实现对卷烟销售的季节性和周期性进行预测。传统的时间序列分析法,如移动平均法和指数平滑法,常因出现滞后误差而影响预测精度。而ARMA模型是描述平稳随机序列的最常用的一种模型,是目前最好的单一变量随机时序预测法。但现实中的时间序列往往是非平稳的,因此,我们经常使用的是时间序列分析的ARIMA模型。
时间序列分析的ARIMA建模法,也叫做Box-Jenkins法,它是一种以美国统计学家Geogre.E.P.Box和英国统计学家Gwilym M.Jenkins的名字命名的时间序列预测方法。它主要是在对时间序列进行分析的基础上,选择适当的模型进行预测。ARIMA模型也叫做整合自回归移动平均模型(Auto-Regressive Integrated Moving Average Model)。Box-Jenkins法的基本思想是用时间序列的过去值和现在值的线性组合来预测其未来值。也就是说,将时间推移而形成的系列数据视为一个随机序列,把时间序列作为一组仅依赖于时间t的随机变量,这组随机变量所具有的依存关系或自相关性表现了其所观测对象发展的延续性。而这种相关性一旦被相应的数学模型描述出来,就可以从时间序列的过去值及现在值,去预测其未来值[2]。
时间序列由长期趋势、季节变动、循环波动和不规则变动4个部分组成。时间序列是相同事物或现象在不同时期形成的数据,反映了事物、现象在时间上的发展变化情况。
ARIMA模型利用大量的历史数据来建模,经过模型识别、参数估计来确定一个能够描述所研究时间序列的数学模型,最后再由该模型推导出预测模型,进而达到预报的目的。ARMA模型有三种基本形式:自回归模型(autoregressive,AR)、移动平均模型(movingaverage,MA)以及自回归移动平均模型(或混合模型)(auto-regressive Moving Average,ARMA)[3]。
1.自回归模型AR(p)
如果时间序列{yt}满足:
yt=φ1yt-1+…+φpyt-p+εt了(1)
其中:{εt}是独立分布的随机变量序列,并且对于任意的t,E(εt)=0,Var(εt)=>0,则称时间序列{yt}服从p阶自回归模型,记为AR(p)。φ1,…,φp称为自回归系数。
记Bk为k步滞后算子,即Bkyt=yt-1,则模型(1)可表示为:
yt=(φ1B+…+φpBP)yt+εt
令φ(B)=1-φ1B-…-φpBP,则模型(1)可以表示为:
φ(B)yt=εt
AR(p)平稳的条件是滞后算子多项式φ(B)=1-φ1B-…-φpBP的根均在单位圆外,即φ(B)=0的根大于1。
2.移动平均模型MA(q)
如果时间序列{yt}满足:
yt=εt–θ1εt-1–…–θqyt-q(2)
则称时间序列{yt}服从q阶移动平均模型,记为MA(q)。θ1,…,θq称为移动平均系数。
若用滞后算子Bk表示,令θ(B)=1-θ1B-…-θqBP,则模型(2)可写成:
yt=θ(B)εt
任何条件下,MA(q)模型都是平稳的。
3.自回归移动平均模型ARMA(p,q)
如果时间序列{yt}满足:
yt=φ1yt-1+…+φpyt-p+εt-–θ1εt-1–…–θqyt-q
则称时间序列{yt}服从(p,q)阶自回归移动平均模型,记为ARMA(p,q)。φ1,…,φp称为自回归系数,θ1,…,θq称为移动平均系数。
对于ARMA(p,q)模型,当q=0,模型即为AR(p)模型;当p=0时,模型即为MA(q)模型。
如果用滞后算子Bk表示,则ARMA(p,q)模型可写为:
φ(B)yt=θ(B)εt
二.基于ARIMA模型的卷烟销售预测框架
1.收集数年卷烟销售数据。
2.数据序列的平稳化。建立ARMA模型的基本前提是保证时间序列的平稳性。ARIMA建模的过程则是把非平稳时间序列平稳化,再建立ARMA模型。模型中的p和q一旦确定下来,则ARIMA模型便可确定。因此,首先要做的分析工作便是确定p和q的具体取值,然后再对ARMA(p,q)模型进行参数估计及显著性检验。最后利用显著的模型对时间序列进行预测。
3.计算自相关和偏相关系数,检验预处理后的数据是否符合ARMA建模要求。
4.ARIMA模型的识别。根据自相关系数(AC)及偏相关系数(PAC)的截尾性,初步判别序列属于哪类模型以及模型阶次,应用AIC准则为模型定阶。
5.参数估计后,对ARIMA模型的适合性进行检验,即对模型的残差序列进行白噪声检验,如果不能通过,则必须对模型重新进行定阶。
6.用ARIMA模型预测月度卷烟销售量,以此数据可以指导烟草公司的月度和季度卷烟的销售。
三.某烟草公司卷烟销售模型分析
1.整理数据。
本文所用数据为某烟草公司近四年多的卷烟销售量,如表1所示。
表1卷烟历史销售数据
图1卷烟销售曲线图
由图1可明显看出,卷烟销售数据具有整体均势变动性和季节波动性,具备时间序列二重趋势变化特点。
2.数据序列平稳化
由图1可看出数据序列有趋势性,为非平稳序列,需对其进行平稳化处理。对数据进行一阶差分后的序列图如图2。
图2一阶差分后的序列图
图2可以看出已经消除了趋势性,但仍具有季节性,做季节差分,如图3。
图3、季节差分后的序列图
3.计算自相关和偏相关系数,检验预处理后的数据是否符合ARMA建模的要求。
一阶差分、季节差分后的序列的相关系数和偏相关系数如图4所示。
图4、季节差分序列的相关系数和偏相关系数
由上图可以看到,时间序列的自相关系数基本上都落入了置信区间,且逐渐趋于零。可以判断该时间序列平稳。
4.ARMA模型的识别、参数估计及检验:
以AIC原则定阶。AIC准则称为最小信息的辨识模型阶数准则。该准则的基本思想是,根据模型的预报误差来判断自回归模型的阶数是否合适,如果某个适用的自回归模型是由某一序列拟合得来的,则利用该模型对序列进行一步预测,所得的预测误差必定是最小的。由此得出最优模型为:Log ARIMA(0,1,2)(0,1,1)s NOINT。
模型Log ARIMA(0,1,2)(0,1,1)s NOINT残差项的ACF、PACF、IACF图如下:
图5模型Log ARIMA(0,1,2)(0,1,1)s NOINT残差项的ACF、PACF、IACF图
参数估计和模型拟合后,应对 ARIMA模型的适合性进行检验 ,即对模型的残差序列进行白噪声检验。若残差序列不是白噪声序列 ,意味着残差序列还存在有用信息没被提取,需要对模型重新进行识别。
图6模型Log ARIMA(0,1,2)(0,1,1)s NOINT残差项的白噪声和单位根检验图
从上面图中可以看出,模型残差项为白噪声,信息提取充分。
模型拟合统计量如下:
图7模型Log ARIMA(0,1,2)(0,1,1)s NOINT拟合统计量
模型统计参数如下:
图8模型Log ARIMA(0,1,2)(0,1,1)s NOINT统计参数
5.利用ARIMA模型预测2009年11月份-2010年12月份的销售数据
2009年11月份-2010年12月份的销售趋势预测图如下:
图9 2009年11月份-2010年12月份的销售预测图
对2009年11月份-2010年12月份销售量的预测及预测区间如下表。
综上所述,利用ARIMA法建立卷烟销售预测模型能够较好地预测出规格卷烟月销售总量值变化趋势,能够实现对卷烟销售季节性、周期性和随机性特点的有效模拟,预测数据可以作为卷烟月度和季度销售的参考。