专家课程 | 商业地产如何“专业”地进行数据分析工作?
时间:2021-08-11 10:10:27 浏览量:2014 作者:海鼎科技 来源:网络

系列前言


海鼎科技·专家课程


在接触对接了行业千余家客户的数字化需求之后,我们发现,商业地产企业中不乏具有热血与冲劲的专业型人才。他们或为了商业集团、项目的发展贡献着宝贵智慧,或在学术领域沉淀着极具价值的架构体系。


今天,我们将他们请到海鼎科技专家课程系列的现场,为更广大行业的受众“曝光”他们的所学、所识、所感,将私藏的干货展现给行业大众,造福行业加速发展。


本期专家介绍


刘烜超先生



2010年进入零售业工作,历任多家商业项目的IT部门负责人。经历7个项目(3个筹开)的发展与成熟,其中包括百货、购物中心、商街、超市、综合体等多业态,专长于商业地产数字化板块工作。


在数据分析专业领域中,其于15年深入研究统计学,19年初通过法国ESSEC商学院数据分析专业认证,2021年获得联合国下属机构TRL Alliance 授予的 Independent Scientist 认证 以及 TRL 志愿翻译者资格。同时作为Unity、Unreal虚拟现实独立开发者,参与某高校艺术与科学专业的数据可视化艺术作品的研讨和作品制作。


写在前面·作者序:


商业数据分析(简称BA),结合头几年 Big data、AI 的风口,被甲乙方炒得火的不能再火。一时间,IoT、新BI、新零售等等新概念层出不穷。


本人在商业的IT部门工作了11年,在这些年的项目经验中,发现商业公司开始越来越重视数据了。然而在实际运作中,要投入的不仅是资金这么简单,专业素质、理论基础以及上层领导的理解和支持,方方面面缺一不可。有时候不同项目间千差万别,报表又很单一,分析手段也是20年前的标准, BA&BI 的推进如此缓慢也是情理之中的事情。


在过去的实际分析经验中,我发现传统商业分析的结构是相当单一的,同比环比分析、漏斗下钻、分类汇总,配合多种维度:例如销售、坪效、租决等等,得到的分析往往不能理解数据之中本身蕴含的意义。针对这个问题,我通过结合国内外大量文献和资料,以及借鉴其他行业的分析方法,将用以下4个章节粗略描绘一下这些年的分析手段和经验:


第一章:商业数据处理以及描述性分析


第二章:相关性分析、数学模型应用


第三章:无监督学习下的客群统计和店铺统计


第四章:数据可视化


接下来,让我们进入本期课程的第一章学习内容:“商业数据处理以及描述性分析”。


分析中用到的软件和语言仅供参考



商业数据的特点和缺失值处理


Shopping mall 的存在本质是合理控制租赁方经营成本,在与承租方的履约过程正常的情况下,租赁方不会造成因人员、促销等费用产生的巨大投入(相比百货和超市)。


但国内外的购物中心都有一个核心问题,销售无法及时获取,这也是造成数据收集和分析困难的巨大问题。往往我们看到一个店铺的销售数据表现是这样的:



某商场在定义区间范围内的品牌交易数据,其中缺失值用黄色表示。如图所示,该品牌的销售数据缺失方式为不规则不定期缺失,因此需要考虑使用插值补全的方式尝试补全数据。但同时要注意,补全销售后,可能直接影响现有销售的表现。因此插值之后还需要进行检验,最快捷的方式可以用ANOVA检验方差,如果方差不大于一个阀值则表明插值结果可用,或采用直观的图形可视化观察数据走势从而判断数据的可读性。


在做这一步前必须要明确一点:插值处理就是在原始数据没有的情况下,根据该品牌销售实际存在的数据进行数学模拟,并填补进空缺位置。这个方式用于找到数据的趋势,而不是具体的单日对比、环比。


插值补全有多种办法,本人习惯使用KNN、简单插值和贝叶斯插值法进行比较,以下图中列出了三种不同插值的结果。在插值范围内需要观察数据的一致性和周期性,从而最终确定插值的方式。当然由于不同品牌经营方式也不同,插值不可能是统一算法,否则有可能产生基于随机数的数学规律,导致不应出现的噪声。





如果是多维数据,例如针对某一个客人的属性分析,包含年龄、性别、交易次数、单价等数据的时候,缺失值越多且复杂。左下图是同一组数据中,以列为单位的各维度缺失值情况,红色为实际缺失值。右图使用散点图方式标注缺失值其他属性的分布以及四分位图。




多维度缺失值处理需要采用主成分分析,首先判断数据各维度之间的关联度,如果产生类似交易笔数、交易件数之间可能有强相关的属性时,算法可能提示删除其中一个。而如果恰好其中一列数据缺失值较多,则可以剔除出去。又或如果该列与其他列数据存在较大口径出入,则也可以选择剔除。



主成分分析


如何确认哪些维度具有意义?


有的时候我们对某一品牌或某一类客人进行分析时,可能会出现参考维度过多的情况,对于客人:年龄、性别、出生地、工作年限、年收入,哪几个才是左右客人购买商品的关键因素呢?我们需要用主成分分析法来确认。


通过主成分分析(Principal Component Analysis,PCA),我们可以用R语言找到主成分,并使用算法提示得到对哪一列进行数据处理的意见。






离群点(异常数据)检测



在某个品牌的销售活动中,可能有忽高忽低的情况,我们需要用统计方法将这些异常的销售日找出来,并且判断造成这个情况的原因。离群点(outliner)检测则是检测的常用分析手段。

离群点用于检测数据中是否出现数据偏移、错误数据等等,如果离群点在95%置信区间外,则判断是否是数据录入错误、或者有大规模活动造成的数据出现短期较大变化。 

在经营数据分析中,置信区间用来描绘数据的可靠性,如果某一时段的数据超过置信区间,则该节点数据可能存在数据错误或特殊情况导致的变化。如销售数据录入错误,另有可能商场或品牌方大规模做活动导致销售数据大规模变化。当然,具体情况仍需针对每一个品牌进行分析和确认。





下图所示,红色部分标注为离群点。此时可以针对这个结果对数据进行深入分析。比如上升的原因,比如是否有销售数据录入错误等。

两图中均以如下公式确认离群点






当然离群点的分配需要根据数据集的实际情况来判断,如使用 kmeans 或层次聚类得到实际分类阀值,然后再进行离群点分析。




一个店铺的销售曲线如果单单看环比和同比,是无法对实际情况有参考价值的。我们需要使用时间序列模型对单一店铺的销售趋势进行分析。我们通过这个模型可以查看店铺的销售走向,甚至是生存周期。但销售数据都是有季节性的,我们称之为白噪声,分析的过程中需要将其剔除。


该算法的前提是引入经济学时间序列模型,查找本数据的自我规律。如店铺销售能力是否会上升或下降,是否存在周期性规律等等。采取这个办法的初衷是因为早期分析店铺销售的时候,可参考项目较多,在参考了经济学相关模型和算法后,认为店铺销售也具备一定的自相关性。在进行时间周期分析时,比如想查看某个品牌的销售是否呈现周期性规律首先要去除季节性影响,而查看数据本身是否具备自相关性。因此周期性代表的白噪声则需要首先剔除。




以上内容,即为数据处理的基本方法和描述统计方法。下一章,我们会继续介绍统计模型在商业分析内的使用,感谢您的持续关注。




线上课程预告:


关于本期商业数据分析内容,海鼎科技也将计划在近期开展线上直播专题课程。8月25日,让我们一起期待相关专家与各位行业精英零距离互动,欢迎关注相关课程报名通知,敬请期待。


若您对本专题课程内容有深入了解需求,或希望与课程专家深入交流,欢迎添加海鼎智慧商业小助理微信进一步垂询:headingxiaozhuli
上海市徐汇区宜山路1388号民润大厦2号楼3楼
200235
咨询热线: 400-1785855 | 售前电话: 400-1785855
扫码关注订阅号
扫码关注视频号
微信扫一扫
关注公众号
沪公网安备 31010602006402号 沪ICP备19026910号-3