【2022BI数据分析大赛】中国家庭金融资产配置状况分析
一、选手简介
1.个人选手
帆软社区用户骆珞洛,目前是一名金融专硕研究生,就读于上海大学,研究领域为中国家庭资产配置。
2.参赛初衷
(1)对数据可视化分析具有浓厚兴趣,通过观看视频教程、阅读论坛经验和接受专家指导等方式快速熟悉对FineBI的运用,丰富可视化经验,提升个人竞争力;
(2)学习FineBI各路大神的分析思维,了解更多业务场景、分析模型,提升数据分析能力;
(3)在日常学习中经常会涉及数据分析,比如毕业论文写作,希望学习运用FineBI直观展示数据关系,挖掘数据价值。
二、作品介绍
1.业务背景
近年来,我国经济总量不断迈上新台阶,收入水平明显提升,居民财富持续积累,投资理财需求增加。在政府、学界和业界的努力下,中国居民理财意识增强,加之党中央提出“房住不炒”政策的背景下,房价趋于稳定,家庭对于投资金融产品的热情日益高涨,家庭巨大的金融产品消费潜力也将得到释放。合理的家庭资产配置有助于提升家庭收入、实现财富保值增值、缩小社会贫富差距、早日迈向共同富裕。为此,本次运用中国家庭金融调查(China Household Finance Survey,CHFS)数据,分析中国家庭金融资产配置状况和风险资产持有家庭画像,用数据展示所存在的问题,最后为中国家庭资产配置的优化提供政策意见和建议。
2.数据来源
本次分析运用的数据为中国家庭金融调查(China Household Finance Survey,CHFS)数据,中国家庭金融调查是在全国范围内开展的一项抽样调查项目,旨在收集家庭金融微观层面的相关信息,包含的内容有住房资产和金融财富、负债和信贷约束、收入和消费、社会保障和保险、代际转移支付、人口特征与就业以及支付习惯等相关信息,对家庭经济和金融行为进行了全部细致的刻画。目前,中国家庭金融调查分别于2011年、2013年、2015年、2017年和2019年成功完成了五轮实施并公开了调查数据,并且于2021年开启第六次调查。中国家庭金融调查数据具有全国、省级和副省级代表性,提供了高质量的微观家庭金融数据。
特别说明:CHFS数据在考量家庭资产配置时以整个家庭为受访单位,在考量人口特征时以一个受访者为受访单位,本文选用户主特征作为家庭投资者特征进行分析。
3.分析思路
图 1:分析思路
4.数据处理
4.1 数据清洗
数据集通常存在缺失值和异常值。对于缺失值,每年调查数据存在两类变量缺失值,一类是因为问卷逻辑跳转产生的信息缺失,另一类是在实际访问过程中,由于受访者认知差异、配合情况、访员理解或填答错误等原因引起的缺失值。此外,每年的调查问卷数据存在差异,由于2011年调查数据缺少两个变量值,故本文采用的数据为2013年、2015年、2017年和2019年CHFS调查数据,并在这四年的数据基础上剔除缺失值样本。对于异常值,一是年龄变量,本文保留年龄段位于18-80岁的客户,第二是家庭人数,当家庭人数为0时代表样本存在异常。在剔除缺失值和异常值之后,最终获得2013年25661个样本、2015年24663个样本、2017年27251个样本以及2019年22730个样本,总计100305个样本,样本的初始值和最终值如下表所示。
表 1:样本数量
年份
样本初始值
样本缺失值
样本最终值
2013
28141
2480
25661
2015
37289
12625
24663
2017
40011
12760
27251
2019
34643
11913
22730
4.2 构建自助数据集
4.2.1 选字段
Excel表中包含100305户家庭所有指标,选中所有字段。
图 2:选字段操作截图
4.2.2 字段设置
当字段内容为数字时,FineBI会将其自动识别为数值类型,而年份、住房资产数和家庭人数这些字段虽然是数字,但在后期数据运用中是作为分组标准,故将这些指标由数值类型转换为文本类型。
图 3:字段设置操作截图
5.可视化报告
5.1 数据含义表达
Excel中的各项指标由作者根据中国家庭金融调查问卷和数据整理,以下为本次分析所使用指标名称及定义说明。
表 2:指标名称及定义说明表
指标名称
指标定义
家庭编号
每一户家庭拥有一个单独的编号
性别
家庭户主的性别
年龄
家庭户主的年龄,保留户主年龄位于18-80的样本,并将年龄分为18-30岁、31-40岁、41-50岁、51-60岁、61-70岁、71-80岁这六档。
学历状况
家庭户主的学历状况,分为没上过学、小学、初中、高中、中专\职高、大专\高职、大学本科、硕士研究生、博士研究生九类
婚姻状况
家庭户主的婚姻状况,分为未婚、已婚、同居、分局、离婚和丧偶六类。
健康状况
家庭户主的健康状况,分为非常健康、健康、良好、不健康和非常不健康六类。
风险态度
家庭户主的风险态度,分为高风险、略高风险、平均风险、略低风险和无风险五类。
幸福感
家庭户主对自己生活的幸福感知,分为非常幸福、幸福、一般、不幸福和非常不幸福五类。
是否购买
社会医疗保险
家庭户主是否拥有社会医疗保险
是否购买
社会养老保险
家庭户主是否拥有社会养老保险
是否购买商业保险
家庭户主是否购买商业保险
是否参与
住房公积金
家庭户主是否参与住房公积金计划
是否拥有住房资产
家庭是否拥有住房资产
住房资产数
家庭所拥有的住房数量
家庭人数
家庭由多少位成员组成
省份
家庭所在省份
城乡
家庭属于城镇还是乡村
是否持有风险资产1
家庭是否持有风险资产,由1或0表示,其中“1”表示有,“0”表示无。
是否持有风险资产2
家庭是否持有风险资产,由是或否表示。
家庭收入
家庭收入包括工资性收入、农业收入、工商业收入、财产性收入和转移性收入。CHFS 数据库中,部 分家庭收入为负数,主要由于生产经营性项目亏损或者金融市场投资亏损导致。
家庭收入等级
将家庭收入按照数值归为5万以下、5万-10万、10万-20万、20万-50万-50万-100万和100万以上六个等级
家庭财富
家庭净资产,即家庭财富=家庭资产-家庭负债。
续表2
家庭资产
家庭总资产分为金融资产和非金融资产。金融资产包括现金、存款、理财产品、股票、基金、债券、衍生品、非人民币资产、黄金、其他金融资产、借出款、社保账户余额。非金融资产包括农业资产、工商业资 产、房屋资产、商铺资产、土地资产、车辆资产、车库资产和其他非金融资产。
家庭金融资产
家庭金融资产为现金、存款、理财产品、股票、基金、债券、衍生品、非人民币资产、黄金、其他金融资产、借出款和社保账户余额的总和。
家庭风险资产
家庭拥有的理财产品、股票、债券、基金、衍生品、非人民币资产和黄金这七类风险资产的市值总和。
理财产品
家庭所拥有的理财产品市值总和
股票
家庭所拥有的股票市值总和
债券
家庭所拥有的债券市值总和
基金
家庭所拥有的基金市值总和
衍生品
家庭所拥有的衍生品市值总和
非人民币资产
家庭所拥有的非人民币资产市值总和
黄金
家庭所拥有的黄金市值总和
5.2 颜色选择及设置
选用深色背景图,以淡黄和浅蓝为主色调,辅以橘红色增强图表的直观性和清晰度,并选用白色和浅绿色作为文字颜色。对于组件,为每个组件设置同一的边框,组件间间隙为10。
5.3 报告的内容
5.3.1 标题、背景介绍及特别说明
5.3.2 家庭样本数量
①简述
展示样本数量和空间分布以给读者做数据交代
②图表设置
数字文本:使用大号数字以及亮色,以便于一目了然所使用数据的样本数量;
地图:体现样本的空间分布状况,颜色越深代表该省份的样本量越大。
③分析结果
5.3.3 中国家庭金融资产配置概览
①简述
用数据展现业务背景,探究自2013-2019年间中国家庭财富、收入和各项资产的变化和测算中国家庭金融资产和风险资产的参与情况。
②关键指标制作:中国持有风险资产家庭数量占比
先统计指标:是否购买风险资产家庭=count_agg(是否持有风险资产2),然后对指标进行“组内占比“的二次计算。
③图表设置
推移图:使用柱状图和折线图展示中国家庭平均财富、平均收入、平均金融资产和平均风险资产随时间的变化趋势。
堆积柱状图:比较中国家庭资产、金融资产和风险资产类目下各分类的占比情况以及对同一分类的数值进行横向比较。
仪表盘:根据仪表盘的指针值横向比较中国持有风险资产家庭占比变化,增强仪表板的多元化
③分析结果
5.3.4中国风险资产持有家庭画像
①简述
从家庭所在省份、家庭人数、家庭收入等级、家庭属于乡村还是城镇、是否拥有住房资产、住房资产数量等家庭特征入手,比较不同特征家庭持有风险资产比例,选取明显的特征进行展示。
②关键指标制作
分类汇总不同特征家庭数,某一特征的家庭数=COUNT_AGG(特征指标名称),例各省份所包含的家庭数=COUNT_AGG(省份)
计算不同特征家庭持有风险资产比例=SUM_AGG(是否持有风险资产1)/(记录数)
③图表设置
地图:展现不同省份家庭持有风险资产比例,星型越大表示持有风险资产的比例越高;
矩形树图:根据矩形的面积大小直观的感受出不同特征家庭持有风险资产的比例;
词云:某一收入等级家庭持有风险资产比例越大,该收入等级的字体越突出,给读者视觉冲击,加强读者印象;
对比柱状图:两条柱状分别代表乡村家庭和城镇家庭持有风险资产的比例。
③分析结果
5.3.5 中国风险资产持有家庭户主画像
①简述
从性别、年龄、婚姻状况、学历状况、健康状况、风险态度、幸福感、是否购买社会医疗保险、是否购买社会养老保险、是否购买商业保险、是否参与住房公积金等家庭户主特征入手,比较不同特征户主家庭持有风险资产比例,选取明显的特征进行展示。
②关键指标制作
分类汇总不同特征家庭数,某一特征的家庭数=COUNT_AGG(特征指标名称),例各省份所包含的家庭数=COUNT_AGG(省份)
计算不同特征家庭持有风险资产比例=SUM_AGG(是否持有风险资产1)/(记录数)
③图表设置
气泡图:通过比较圆圈的大小判断某一类别家庭持有风险资产比例的大小;
折线图和柱状图:当家庭类别较多,折线图和柱状图既可以展现不同类别家庭见投资风险资产比例的差异,也可以让图表整洁明了;
雷达图:根据与中心点距离的远近来比价不同健康状况家庭持有风险资产比例的差异;
颜色表格:当家庭类别仅有两类,赋予数字不同的颜色可以突出两类家庭持有风险资产比例的差异。
③分析结果
5.3.6 总结
5.4 报告的最终结果
三、参赛总结
1.使用FineBI的感想
本次可视化分析报告的制作让我对FineBI的运用更加得心应手,以下是我的使用感受:
FineBI为新手小白配备了相应的基础学习课程,使得我们可以快速熟悉软件。此外,FineBI的帮助文档应有尽有,在制作仪表板过程中所遇到的问题基本上都可以解决。
FineBI页面简洁明了,提供了丰富的图表样式、一系列的配色方案和仪表板样式,使得我们可以制作出直接美观的报告。
自助数据集可以随时更新,更新完毕后,组件也会同步发生变化。
组件之间可以实时联动,动态的数据一方面增加了数据的趣味性,另一方面便于我们挖掘更多的数据信息。
2.参赛总结
在撰写论文之际正好碰到此比赛,于是乎就想着运用论文数据来进行可视化分析,一方面有助于我加强对论文数据的了解,另一方面也可以提高自己在数据分析思维和可视化工具运用方面的能力。自参赛以来,跟随着训练营和直播课程一步步学习,让我收获颇丰,其中最重要的就是已经熟悉了对FineBI的运用,并通过了帆软认证BI工程师(FCBA)的考试。随着计算机信息化普及程度越来越高,我们的日常生活中无时无刻都会产生数据,同样,我们也可以通过数据去了解我们的生活,比如新冠疫情的趋势。数据可视化作为了解数据重要一环,希望自己可以通过学习和实践不断提高数据分析能力,用图表展示数据背后的故事。