【2020冬季挑战赛】用户行为分析
1.选手简介
1.1 选手介绍团队名称:脑门渐秃终不悔
1.2 参赛初衷
作为BI的技术人员,不希望只局限在数仓,ETL等,希望同时能掌握整条线的能力,包括报表的制作与分析
比赛追求不是结果,而是追求比赛过程,希望通过实践学习Fine BI操作的方式方法,提升职业技能
2.场景介绍
2.1 业务背景介绍&数据来源
2.1.1 业务背景
数据集是来自阿里天池平台的2014年11月18日至2014年12月18日淘宝数据,主要记录的是客户购买行为(浏览,收藏,加入购物车,购买)以及行为发生时间。通过此次的用户行为分析,了解电商关注的重要指标,学习数据分析的基本方法以及Fine BI的基础操作及使用。
2.1.2 数据来源:数据来源于阿里云天池:https://tianchi.aliyun.com/dataset/dataDetail?dataId=649
选取了2014年11月18日至2014年12月18日之间,有行为的约一百万名随机用户的所有行为(行为包括点击、购买、加购、喜欢),分析了用户行为与商品规律。数据集大小情况为:用户数量8477,商品数量约701552,商品类目数量7095以及总的淘宝用户行为记录数量为1048475。
数据整体情况参考如下:
字段 中文名字段说明数据类型原始数据量
User_id用户id用户标识varchar8477
Item_id商品id商品标识varchar701552
Item_category商品类目id商品类目标识varchar7095
Behavior_type行为类型类型包括点击、收藏、加购物车、支付,分别用数字1、2、3、4表示varchar1048475
time时间戳用户行为发生时间戳varchar2014年11月18日至2014年12月18日
2.2分析思路根据用户的行为特性对用户进行分类分析,统计不同特征下的用户数量、分布,分析不同群体的分布特征,通过分析可以了解行业动态,比如人群消费习惯、消费偏好分析、以及不同地域的消费差异情况。
根据现有数据及分析目的,从从以下角度进行分析:
用户购物情况整体分析:以PV、UV、平均访问量、跳失率等指标,分析用户最活跃的日期及活跃时段,了解用户行为习惯
商品购买情况分析:从成交量、人均购买次数等指标,探索用户对商品的购买偏好,了解商品的销售规律
用户行为转化漏斗分析:依据点击、收藏、加入购物车以及购买四种行为进行分析
用户地域分析:找出各区域的商品销售规律
对商品的销售情况:商品的销售类目以及销售量,优化商品营销策略
2.3 数据整理
2.3.1 数据清洗
缺失值处理:在创建表格的时候,5个字段均定义为NOT NULL,数据导入保证没有缺失值。
一致化处理:转换时间数据类型。
数据异常值处理:检查日期是否在规定范围内。
时间处理:增加一列hour,故数据源中含有年月日,年月日时间两列数据。
行为类型数字更改为指定字符:
update test.user_behavior_list set behavior_type =replace(behavior_type,1,'点击');
update test.user_behavior_list set behavior_type =replace(behavior_type,2,'收藏');
update test.user_behavior_list set behavior_type =replace(behavior_type,3,'加购物车');
update test.user_behavior_list set behavior_type =replace(behavior_type,4,'购买');
地理位置处理:因原表结构中并无地理位置信息,故在数据库中将城市信息随机对应到用户ID中。
最终表结构如下:
表名
test.user_behavior_list
列名
字段类型
注释
user_id
varchar(255)
用户ID
item_id
varchar(255)
商品id
behavior_type
varchar(255)
商品类目id
item_category
varchar(255)
行为类型
time
timestamp
时间戳
hour
timestamp
时间戳
country_id
varchar(255)
国家编码
country_name
varchar(255)
国家名称
area_id
varchar(255)
地区编码
area_name
varchar(255)
地区名称
province_id
varchar(255)
省份编码
province_name
varchar(255)
省份名称
city_idvarchar(255)
城市编码
city_ name
varchar(255)
城市名称
2.3.2 构建模型
用户购物情况整体分析
这一个月里PV(浏览量),返回结果是:987819
select count(behavior_type) as 浏览量 from Test.user_behavior_list where behavior_type='点击';
这一个月里UV(用户数),返回结果是:8477
select count(distinct user_id)as 用户数 from Test.user_behavior_list;
平均访问量是: 987819/8477= 116.5,即每个用户平均访问了117个页面。
每天访问量/访客数情况
select time,count(behavior_type)as 访问量 from Test.user_behavior_list where behavior_type='点击'group by time;
每天的访客数情况:
select time,count(distinct user_id) as 访客数 from Test.user_behavior_list group by time;
每个时段访问量/访客数
alter table Test.user_behavior_list addcolumn hours varchar(25) not null; update Test.user_behavior_list sethours=left(times,2); select a.hours,a.访问量,b.访客数 from (select hours,count(behavior_type)as 访问量 from Test.user_behavior_list where behavior_type='点击' group by hours)a inner join (select hours,count(distinct user_id) as 访客数 from Test.user_behavior_list group by hours)b on a.hours=b.hours;
不同时段成交量
select hours,count(behavior_type)as 成交量 from Test.user_behavior_list where behavior_type='购买' group by hours order by hours;
2.4 完成分析报告
2.4.1 可视化图表的选择和制作步骤
数据准备-添加自助数据集
139660
数据集-字段类型设置
139662
新建仪表板
139663
添加组件
139664
制作图表
①添加计算字段②选取合适的维度以及指标,图表类型③调整图形属性以及组件样式
2.4.2 通过分析得出的结论
全国各地用户分布情况,从此图来看,广东以及沿海地区用户数相对来说较多。西部地区是接下来要推广的重点。
139665
品类喜好TOP20,说明这20种商品更受大家欢迎,可考虑是否作为后续发展的重点品类
139666
行为漏斗图,用于表达各种不同用户类型的行为量,点击与其他行为的转化率较低。
139667
在这段时间中,几种用户行为都在12月12日这一天有爆发式增高
139668
大部分用户在下午晚上会比较活跃,其中21到22时,是一天当中最活跃的时段,成交量也是这一时段最高。建议可以在用户活跃的时段进行推广以使运营效果最大化。
139669
用户区域占比以及前20用户城市占比
139670
各区域产品点击量
139671
2.4.3 排版布局&设置颜色
仪表盘主题样式选择
139678
在仪表盘主题选择完毕后,图表依据主题色进行调整,一是如上图可在仪表盘样式中做一些简单的图表颜色调整;二是可直接进入图表设置界面对图表颜色进行设置。例如,地图中采用区域渐变
139679
2.4.4 最终结果呈现的页面布局
用户行为分析页
139681
区域分析
139682
用户活跃规律
139683
139684
2.5 总结
通过这次参赛让我俩收获颇多,虽然过程很辛苦,因为工作原因只能在下班后才能进行学习和参赛制作。但同样让我俩养成了下班回家学习的习惯。参赛过程中遇到了许多之前没遇到的问题和困难,但通过互相讨论分析将问题一一解决。通过参赛学习提升了掌握整条线的能力,包括报表的制作与分析。并且通过实践学习FineBI操作的方式方法,提升职业技能。总之,虽然比赛的结果是重要的,但是,在准备的过程中收获的东西更真实,更有意义,我们收获了并快乐的体验着这个过程。
140327
140326
140325
140324
140368