1.1选手介绍大家好,我叫蓉蓉,现在深圳某公司,做数据开发工作,入职以来的主要工作是数仓搭建对数据可视化比较感兴趣,也希望趁着这次比赛的机会,让自己能更多的思考和学习
1.2参赛初衷对数据可视化比较感兴趣,也希望趁着这次比赛的机会,让自己能更多的思考和学习
2.场景介绍
2.1样本来源及业务背景介绍数据来源于DF网站的潜在客户评分数据集,旨在建立客户评分卡。获得潜在顾客后,销售人员通过使用给全部潜在客户打电话、写电子邮件等方式促进用户转化,但由于潜在客户数据众多,销售技巧单一,其但铅转化率非常差。为了提高流程效率,需要从潜在客户中识别出最有潜在的潜在客户线索,以便销售人员将精力集中在最有潜在的潜在线索上,更专注于与潜在潜在客户沟通,提高铅转化率
2.2分析思路围绕分析主题,我将围绕着以下几步完成整个建模过程: 1) 变量说明。理解数据集中包含的变量以及统计变量的缺失值情况 2) 空值处理 3)变量的描述性分析。变量的特征分布情况 4) 变量与目标变量的相关性分析 5) 变量选择 6)将变量带入逻辑回归模型 7)模型检验 8) 得到客户评分
3.建模过程简介
3.1变量说明数据来源于DF网站的潜在顾客评分数据集,共9240条记录,37个变量(见表1)。其中客户id、潜在客户编号是针对记录的唯一标识,从分析变量中剔除,剩余35个变量;潜在客户质量、不对称配置文件分数、非对称活动分数、非对称配置文件索引、标签--分配给客户的标签空值占比超过30%,其中非对称活动分数、非对称配置文件分数为数值型变量,缺失值太多且非对称活动指数、非对称配置文件指数由这两个数值型变量转换得到,所以可保留离散型变量非对称活动指数、非对称配置文件指数,将这两个数值型变量剔除,其余离散型变量可以将空值作为特征值处理,如果变量选择结果显示这些变量不是关键变量,则将这部分变量剔除。 表1 变量概览 3.2空值插补对于缺失值较少的变量,插补空值。对于数值型变量,总访问、每个访问的页面浏览次数空值采用均值插补;对于离散型变量,潜在客户源、最后一项活动采用众数插补,而其他的离散型变量缺失值太多,将缺失值作为一种状态。
3.3变量描述性分析
3.3.1变量的离散度通过画出变量的柱形图(见附件1),可以得到: - 不呼叫、搜索、报纸文章、X教育论坛、报纸、数字广告、通过推荐的数值波动波动很小,在9240条记录中,只有少于5条的记录为Yes,其余全为No,Yes占比小于0.05%,将这部分变量从研究变量中剔除,剩余26个变量;
- 杂志、接受关于我们课程的更新、在供应链内容上的更新、获取DM内容上的更新、是否同意使用支票支付变量为常量,将这部分变量从研究变量中剔除,剩余21个变量;
3.3.2总访问与是否转化转化与未转化的潜在客户总访问的50%分位数没有差异,但转化的潜在客户的总访问波动性更大。
图1 总访问箱型图
3.3.3在网页上花费的总时长与是否转化 转化与未转化的潜在客户在网页上花费的总时长的50%分位数差异较大,且转化的潜在客户的在网页上花费的总时长波动性更大。 图2 在网页上花费的总时长的箱型图
3.3.4每个访问的页面浏览次数与是否转化转化与未转化的潜在客户每个访问的页面流浪次数的50%分位数没有差异,但转化的潜在客户的每个访问的页面浏览次数的波动性更大。 图3 每个访问的页面浏览次数
3.3.5变量之间的相关性掌握面试的免费副本、国家与是否转化相关系数低于0.01。结合后续变量选择情况,考虑是否剔除相关性较低的变量。 图4 变量之间的MIC值
3.4变量选择
3.4.1使用随机森林进行变量选择利用随机森林得到的变量重要性见图5,可以看到选择本课程时,您最主要的选择、非对称配置文件指数、国家、不要通过电子邮件发送、掌握面试的免费副本的重要性低于0.02。 图5 变量重要性
3.4.2使用IV值进行变量选择
IV值的降序排列见图6,掌握面试的免费版本的重要性低于0.02。
图6 IV值
掌握面试的免费版本在随机森林得到的重要性以及IV值都比较低,且与是否转化的相关性系数也较低,从分析变量中剔除。最终得到的变量如下:
表2 筛选后得到的变量
3.5模型训练及检验将筛选的变量使用woe分箱,因分箱后的值不能直接进模型,将分箱后得到的编码得到的编码带入逻辑回归模型,模型的准确度0.9257,ROC曲线见下图7,auc值为0.92,K-S值为0.8356,模型拟合效果很好
图7 ROC曲线
图8 K-S曲线 3.6模型效果转评分因为我们的目的是尽可能得识别出高价值的客户,因此评分卡设定的值刻度可以使用下面的线性表达式来定义 假定基准分值为200;Odds(胜率)增加一倍时,分数增加增加20;因为目标是提高转化率,且目标转化率需要达到80%,所以假定好坏比为5,最终得到的客户评分情况见附件2.
4. 总结
4.1克服的困难在实际整个分析的过程中,才深知自己现在所了解知识的局限性,所幸的是自己坚持下来了,也才有了总结整个分析过程的机会。将遇到的困难总结为一下几点: 1)工具的差异性。以前的数据探索主要是用tableau,首次使用帆软BI进行数据熟悉,使得会将tableau提供的一些操作带入帆软来使用,在完全没有摒弃tableau的前提下,加大了自身的学习成本,后期改为一个小白视角来了解帆软BI且积极查阅帮助文档后,学习成本大大较低 2)大量离散型变量、少量连续性变量的数据集处理。在以前的分析过程,主要处理的是大量连续性变量、少量离散型变量的数据集,由于缺少经验,查阅了大量的资料来学习变量的处理,也在这个过程中收获很多
4.2收获1) 开阔了视野。在以前的学习过程中,主要是学,缺少实践,无法量化评估自己的学习效果,也无法查漏补缺。这次参加比赛。让我更加深刻认识到自己知识的局限性,以后会更加注重在实践中学习 2)加深可视化的认识。对于可视化,自身可能更多的认为只是一个图形展示过程,并不需要做很多花哨的东西,这次得奖的参赛作品,深刻的意识到所有花哨的东西是为了让客户更好的理解分析结果,而简单的图形展示对于非转专业人士来说,是无法理解图形蕴含的意义的
|