1. 学习背景
工作需要,FineBI刚从老版本升级到新版本,各项操作都有不同,需要学习新的操作方式和新的功能。
2. 分析案例
一、 分析思路拆解
1. 数据集的梳理
由于天池淘宝母婴购物数据集的数据没有详细的说明和数据字典,故通过网上其他信息检索,对数据结构和数据含义进行了梳理
两个数据集通过user_id关联
交易数据存在层级结构关系,即一级类目→二级类目→商品
交易数据中仅与婴儿数据集存在交集的部分对本次分析有实际意义
2. 数据清洗
在数据分析开始前,对两个原始数据集进行了清洗
交易数据:一级类目→二级类目→商品的层级关系决定了,同一商品的一级类目和二级类目是唯一的,需要按照规则剔除异常数据
交易数据的交易量:正常个人用户的购买数量不会过大,在数据中按照数量小于等于100进行处理
婴儿数据:按照生日,超过16岁的购买记录不在分析范围内
3. 数据范围
被分析数据的时间范围:2012/07-2015/02

二、分析维度
1. 整体销售情况
销售量
用户数
商品数
一级类目分组的销售量
一级类目分组的同比分析(2014年对比2013年)
2. 相关性分析
用户主要属性:婴儿性别、婴儿年龄
相关性1:婴儿性别-一级类目-销售量之间的关系
相关性2:婴儿年龄段-一级类目-销售量之间的关系
3. 销售数据分析
一级类目下二级类目的销量top5
三、数据处理过程
1. 对原始数据进行处理
利用条件标签列,将婴儿信息表中的性别转译
利用条件标签列,将交易信息表中的一级类目转译(二级类目、商品、属性由于没有数据字典且数量较大,未做转译处理)
将birthday和day两个日期字段调整为时间类型
2. 数据关联
两个数据集进行“交集合并”(仅保留两个数据集中都存在的用户购买记录,作为有效分析数据)
数据清洗
删除重复行
过滤购买数量
过滤类目层级对应关系
过滤婴儿年龄
3. 数据处理
利用条件标签列,对婴儿的商品购买时的年龄进行分组(0岁一下、0-1岁、1-2岁、2-3岁、3-4岁、4岁及以上,所有分段均为前闭后开)
整体情况分析
相关性分析
销售数据分析
四、 分析结果
整体(一级类目)销售情况分析
从产品销售情况看,“奶粉/辅食/营养品”和“纸尿裤/湿巾/日用品”属于日常消耗品,市场需求量大;
其中,奶粉/辅食/营养品等销量最高,整体占比32.01%,其2014年的同比增长率也高达68.18%,说明客户对婴儿生长发育过程中的营养补充重视程度逐步增加,可以分析用户心理增加相应的产品推荐;
玩具/早教/益智类商品销量不低,但是同比增长缓慢,仅有0.78%,可能时客户群体比较固定,这类产品与高销量的奶粉/辅食/营养品有相似点,都对婴儿的发育有帮助作用,可以从婴儿成长的角度进行广告投放和推荐,利用社交媒体扩大影响里和用户群,以实现销量增长。
关联分析
客户群体中女宝宝的占比略高,整体差别不大,年龄段主要集中在0-3岁;
除童装类之外,其他类目中女宝宝的商品购买数量均高于男宝宝,说明在婴儿时期女宝宝的护理对日常消耗品的需求量更高,而且家长更愿意投入成本,对后续有女宝宝的客户,可以增加相应的定向推荐;
从购买数量的年龄分布看,0-3岁的购买数量较高,说明0-3岁婴儿对消耗品的需求量更大,而且家长更愿意对这一阶段的婴儿投入成本,后续可以根据客户子女的年龄增加相应产品推荐;
洗护/喂哺/推车床等,由于使用时间长,销量较低,且没有明显的性别/年龄分布。
销售明细分析
从商品的销售情况看,每个类别中销量排名前5位的商品,销售量基本可以达到改类别整体销售量的50%以上,说明用户在选购母婴类产品时,可能更关注和信赖头部品牌,对商品的质量要求更高,同时,受到外界宣传的影响的可能性也更大,所以可以重点加强产品质量宣传,充分利用头部品牌带来的品牌效应,促进销量进一步增长。
3. 学习总结
本次课程让我对数据分析有了一个整体的了解,实现了从使用工具到分析数据的思维方式的转变,也了解到更多平时比较少有机会接触的功能和方法。同时,针对课程也有一些建议,课程整体的技术和分析思路比较分裂,没有很好的结合,必修课程时间较短,整体比较偏技术,没有太多数据分析思路,课程更像是工具教学而不是数据分析课程,希望后续这一点能够有提高,为后续学员带来更好的体验和收获。 |