大数据背景下的浙江烟草商业系统2.0版数采体系建设研究

2021-12-28来源：浙江省局（公司）、浙江衢州市局（公司）作者：陆洪涛刘世凡童浩杰

数采体系是数据驱动的核心基础。经过十多年的运行，浙江烟草商业系统自主探索的实时机采模式已形成一套相对稳定的社会卷烟库存、社会销量的估计方法，在数据驱动经营决策方面发挥了重要作用。

当前，浙江烟草商业系统已为十万多零售客户配备了终端管理系统，每日采集超过200万笔零售数据，大量性、多样性、非结构性、高速性的大数据特征明显。

传统数采体系的弊端

传统抽样推断理论是依据随机原则抽取样本，将观测结果与样本单位的权数结合实现对总体目标的估计。浙江烟草商业系统1.0版本数采体系主要通过“分层等距抽样还原”原则抽取5%的固定样本零售客户，并配备专用扫描枪对每笔卷烟销售数据进行记录，再由系统平台根据样本零售客户的数据智能推算出总体社会零售销量、社会零售库存、存销比天数。该版本数采体系主要存在以下两个局限性：

一是利用数据少。除5%样本客户外，其他数采客户数据还不能得到充分使用，终端数据量的增长也无法体现在还原精度的提高中，与大数据的发展逻辑不相匹配。同时，基于档位分层的固定样本，类别变动会打乱现有样本分布，样本户培养管理成本高。

二是应用维度低。当前，以市场为导向的精准供货、精准调控要求在逐步提高，多维度评价市场状态（如终端层级、经营业态、商圈区域等）、合理化配置资源（如终端建设、平台推广、会员运营）的需求更加紧迫，而传统方法是基于总量的抽样，理论上只能支持对整体的估计，难以满足细分维度下的多场景应用。

2.0版数采体系研究思路及研究内容

基于上述现状，浙江烟草商业系统通过扩展样本容量、优化还原算法、深化场景应用，改造升级形成一套兼具稳定度、灵活度、更细颗粒度的2.0版数采体系。

兼顾稳定度，扩展样本容量。利用全省商业系统营销人员十多年精心培养的样本基础，将当前5%样本客户逐步向30%的数据采集客户扩展，这就将数据质量高的客户纳入了样本库，从而提高数据还原准确率，减少还原误差。

提升灵活度，优化还原算法。打破现行数采体系以类别进行还原的限制，变静态为动态，构建一套不受类别调整、样本客户置换、抽样规则改变等因素制约的新数采体系，让数采管理更加灵活、应用维度更加丰富。

增加颗粒度，深化场景应用。有效发挥大数据优势，立足更小的颗粒度，如通过不同商圈、区域、终端层级、品牌品规等指标还原，挖掘数据更深价值，实现更多场景化应用。

大数据抽出的样本都属于非概率抽样，不能将传统的抽样推断理论直接应用，需要对抽样方法、权数的构造和估计进行调整。2.0版数采体系以所有数据准确的样本客户作为样本，采用动态分层方法解决样本分布不合理的问题，以不等概还原的霍维茨汤姆森估计量进行估计，在保留现有应用场景的基础上，增加客户属性、卷烟属性组合维度，满足多场景的业务应用需求。

2.0版数采体系计算逻辑并不复杂，以估计社会销量为例，可通过选取样本、计算概率、样本分区、还原估算四个步骤实现。

第一步：选取样本。根据日常库存实盘结果，从配备店铺管理系统客户中动态选取数据准确率高的客户作为样本户。在数据准确率整体较高的情况下，设置可扩充至所有数据采集客户，以提高还原精准度和稳定性。

第二步：计算概率。不等概抽样还原理论是2.0版数采体系的核心算法，当总体单元间差异大（即总体方差很大），可以有效提高估计精度，减少抽样误差，但此算法必须要有说明每个单元规模大小的辅助变量来确定其入样概率。烟草商业公司给客户的批发量（即客户的进货量）具有精确性、全面性特点，从较长周期来看，客户的进货量与其社会销量存在强相关，因此，2.0版数采体系选用批发销量作为辅助变量来计算入样概率，公式为：入样概率=单客户的进货量/所有客户总的进货量。

第三步：样本分区。确定估计对象后，根据进货量将对象内所有零售客户从高到低进行排序，划分为进货量总和相等的N个区间（N默认为5），分别计算每个区间内包含样本的均值，从而得到N个虚拟样本。比如查询全地区时，估计对象就是全体客户；如果查询的是某县的便利店，那么估计对象就是该县所有便利店客户。N个虚拟样本的入样概率相等（每个区间总进货量相等），其分布与不等概方法的理论分布相似。

第四步：还原估算。通过N个虚拟样本零售量及入样概率，采用霍维茨汤姆森估计量估算社会整体零售量，这样就可以最大程度降低偶然性对还原结果的干扰。对于社会库存、社会零售额等指标可采用类似办法。

基于以上计算逻辑，根据应用需求不同动态选择不同维度的样本群体、不同属性的商品（卷烟和非烟商品）进行还原估算其市场状态，来扩展满足更小业务单元、多业务场景下的业务需求。

2.0版数采体系的运行成效

当前，浙江烟草商业系统在数据分析平台中对2.0版数采体系进行了固化落地，为数据驱动经营决策提供了更加强大的支撑。与1.0版本相比，2.0版本呈现出稳、准、细、广四个方面的成效：

稳——体系运行更稳定。采用不等概还原思想，计算步骤简单，从前期运行结果可以看出，还原出的整体社会销量、社会库存、可销天数指标与实际盘库结果的误差均控制在3%以内。同时，不受客户分档、样本置换等因素制约，样本调整动态灵活，有效解决了1.0版本相对固定样本阶段性调整引起的还原数据波动，大幅度降低了样本培养置换的管理成本，更加简单、灵活、稳定，市场生态把脉更加平稳有序。

准——还原结果更精准。充分对接行业数字化转型发展趋势，以数据准确的现代终端数据扫码客户作为样本，样本量从5%扩展到30%，样本量的增加有效提高了还原精准度。在越来越精细化的现代营销管理中，基于客户差异化需求的标签供货使用更加频繁，消除了1.0版数采体系基于选点供货等造成的单规格还原偏大、不均衡的现象，结果更加贴近市场、更加真实准确，品牌生态把控有了更精准的数据支撑。

细——还原指标更精细。基于大数据下不等概计算可以实现任意还原对象的组合联动分析，梳理出包含卷烟、客户、非烟商品三个大类属性的百余个细化标签体系。通过对各个属性多个标签的组合分析，从更丰富的维度、更细的颗粒度来还原市场状态。比如，某地市级烟草公司根据全省烟草商业系统精准调控需求，选择不同的终端层级、商圈业态、行政区域、营销线路的客户属性等，再与不同的卷烟属性进行随意组合，将不同终端层级与卷烟价类进行联动分析，从而实现了各层级终端、各个价类卷烟精准供货，为下一步实现标签到户供应管理奠定了良好基础。

广——应用场景更宽广。基于更小颗粒度多属性标签体系，各级营销部门通过区域、地段、业态等与重点品牌动销之间的关联分析，将数据广泛运用到合作店选点、终端资源分配、特色终端打造等相关业务上，进而优化终端生态。同时，还逐步将还原对象由卷烟扩展到非烟商品，根据非烟品牌的市场动销情况，来指导非烟的运营管理、会员体系构建等相关工作，助力行业“生态化经营”。

【烟草市场版权及免责声明】

热点文章

手机版

烟草市场手机版

公众号

金叶市场公众号