孔乙己的长衫
——揭秘上市企业职工薪酬与个人薪酬规模预测
作品公共链接:https://bisolutions.fanruan.com/webroot/decision/link/S7VS
一、选手简介
1.选手介绍
团队名称:小胡图图
团队组成:
晓晓—制图小能人,毕业于上海大学经济学院,即将就读于上海大学经济学院。今年一月份初次接触FineBI,便一发不可收拾,感受到了数据可视化的魔力。期待在这次比赛中,我们小胡图图一家可以一同探索更深入的数据分析与可视化技能,冲呀!
虎虎—统筹大队长,毕业于上海大学经济学院,即将就读于北京大学光华管理学院。帆软初步使用者and重度爱好者,最爱和小伙伴一起参加比赛,希望可以体验数据分析项目全流程,和小胡图图伙伴们一起冲向大奖!
图图—美妙文笔手,毕业于上海大学经济学院,即将就读于东南大学经济管理学院。FineBI初学者,立志成为数据达人,将数据之美和文字之美有机结合,期待与小胡图图们乘风破浪,拿下大奖!
兔兔—黄金小砖头,毕业于上海大学经济学院,即将就读于上海财经大学金融学院。帆软小白,希望通过此次比赛深入学习数据分析,掌握可视化分析工具,并尽情享受比赛的过程,和小胡图图一家人相互学习,共同进步!
王总—资深技术流,毕业于复旦大学,即将就读于复旦大学。担任团队技术顾问,在机器学习领域有相关研究,希望借此比赛一展身手,找到技术手段和FineBI可视化的契合点,让作品登上新高度!
2.参赛初衷
团队成员都是刚刚本科毕业的准研究生,我们在平时的学习实践和实习工作中深深体会到数据分析的魅力与重要性。数据分析离不开专业高效的可视化分析工具,晓晓之前在导师的指导下,已使用FineBI进行系统分析,并获得了很好的体验。这次看到帆软举办挑战赛,我们决定共同参赛,借此机会督促学习,继续玩转FineBI,展示美观易懂的各类图表,构建合乎逻辑的分析框架,揭示实际问题的意义。我们团队早在本科阶段相识相知,彼此熟悉,希望能通过此次比赛碰撞出新的火花,展现团队合作的精神,一同在数据的天空中探索。
二、作品介绍
1.业务背景
1.1背景介绍
近十年以来,中国家庭财富增长速度明显超过可支配收入,即国人的财富增量主要来自房地产等存量资产账面价值的提升,而非收入的增长。收入是老百姓们日常生活消费的基本保障,也是存量财富积累的根本源泉。收入越高,我们往往才有拥抱更好生活的自信与资本。然而,这一朴素而现实的奋斗方向标却被当下盛行的学历贬值之风吹折了。“我们送走了农民工时代,却迎来了廉价的大学生时代。”现在3000元招不到一个农民工,却能招到一个大学生,这种现象看上去有些割裂与讽刺,但又是让人唏嘘的事实。“孔乙己文学”横空出世,脱不下的长衫诉说着二十余年苦读无门的无奈,为“五斗米”而折腰成为了打工人们的自嘲之语,升职加薪也似乎是遥不可及的梦。裹挟在这样的就业压力与不安情绪中,我们越来越重视专业和职业的选择,同时也越来越不可避免地陷入焦虑和迷茫。在此背景下,本团队希望通过多维数据分析揭开上市企业职工薪酬的面纱,并建立模型对个人薪酬规模进行预测,以期抚平一些困惑和焦虑,传播积极的择业观和价值观,引导人们选择最适合自己的岗位,提高收入水平,减小收入差距。
1.2需求痛点
薪酬收入既是劳动要素的回报,也是绝大部分国民最重要的收入来源,但由于统计口径不统一,又涉及个人隐私,长期以来,可获得的薪酬数据在完整性、真实性和可比性方面一直存在较大缺陷,薪酬预测效果也欠佳。本团队综合运用2010-2020年中国上市公司职工薪酬数据与中国综合社会调查2021年度微观数据,尝试从地区和行业宏观、企业中观和个人微观层面分析透视职工薪酬,发现并归纳事实,解读其中所蕴含的规律,并利用微观数据建立模型,进行个人薪酬规模预测。
2.分析思路
本文的展示思路分为多个层面。首先是职工薪酬现状概览,我们将提供对整体报表的时间、行业与地区筛选功能,同时展示与薪酬有关的重要指标和时间趋势变化。
接着,我们将分析薪酬的多维度情况,涵盖宏观、中观与微观三个层面。除了展示薪酬分布情况外,我们还会深入探讨现实中的多个关注点,例如各个行业之间的薪酬分布是否公平、996现象是否存在以及企业在扩大规模后是否愿意提供更好的薪酬待遇等问题。在多维度分析部分,我们将利用交互式组件帮助读者了解不同维度下的薪酬情况,包括专业、企业、行业、地区等。通过交互功能,读者可以全面了解薪酬的差异和特点。
最后,我们将应用机器学习的方法建立薪酬预测模型,并设置参数与报表使用者进行交互。这将使用户能够根据自身情况,通过模型预测获得相应的薪酬估计结果,为个人职业规划提供更有针对性的参考。
3.数据处理
本次参赛使用的数据来自企业和个人两个层面。企业数据来源于CSMAR数据库与Wind数据库,初始样本数为38257;个人数据来源于CGSS,初始样本数为8148。以下将分别阐述它们的处理步骤,以更好地进行第一、二部分的可视化分析。除此之外,我们对薪酬预测过程也做了必要说明。
3.1企业数据处理
企业数据由沪深两市A股上市公司2010-2020年的基本信息表以及职工薪酬表两个子表构成,将其上传至FineBI分析平台后,基于企业代码和日期进行合并。依据申银万国证券公司2021年最新行业分类法,将上市公司分为31个一级行业。
将字段进行分组,方便后续计算。
3.1.1筛选样本
为消除异常数据干扰,对样本做如下筛选工作:
(1)剔除上年年末资产数据与本年年初资产数据不相等的样本3645个,这主要是为了避免公司因发生重组等原因而导致前后期不可比;
(2)剔除职工薪酬小于高管薪酬总额的异常样本8个;
(3)剔除支付给职工以及为职工支付的现金和职工薪酬小于等于0的异常样本8个;
(4)剔除职工人数与支付给职工以及为职工支付的现金缺失的样本4667个;
(5)剔除应付职工薪酬期初和期末额缺失的样本65个;
(6)剔除ST、*ST类上市公司样本1721个。
企业数据最终有效样本为28143个。
3.1.2指标口径
企业数据各指标口径和计算方法如下:
序号
|
指标名称
|
计算方法
|
(1)
|
企业年龄
|
运用FineBI公式
|
(2)
|
管理层平均薪酬
|
前三名高管的总薪酬 / 3
|
(3)
|
本年度职工薪酬总额
|
(本年应付职工薪酬期末额 - 本年应付职工薪酬期初额) + 本年度支付给职工以及为职工支付的现金
|
(4)
|
本年度职工人均薪酬
|
本年度职工薪酬总额 / 本年度职工总人数
|
(5)
|
劳动生产率
|
营业收入 / 在职职工数量
|
(6)
|
职工薪酬年复合增长率
|
(2020年职工薪酬 / 2010年职工薪酬) ^ (1/10) - 1
|
(7)
|
职工薪酬变动率
|
(当年职工薪酬 - 上年职工薪酬) / 上年职工薪酬
|
其中,企业年龄的具体计算方法如下图。
3.1.3对异常值的解释
我们注意到,在该企业数据中,存在一些不符合日常认知的情况,比如新疆维吾尔自治区、内蒙古自治区以及西藏自治区的高薪酬。对此列出了如下几个方面的可能原因:
(1)个别企业拉高了薪酬均值,例如位于新疆维吾尔自治区克拉玛依市的中油资本,年度职工人均薪酬达到36.69万;
(2)国家相关补贴提升员工福利,例如高原工作补贴、边疆维稳、民族关爱等;
(3)税收优惠政策吸引了更多上市企业注册,企业税负减轻,付给员工的工资也会相应有所增加;
(4)非正式员工不在统计范围内,有些上市企业考虑到用工成本,也许会雇佣一定比例的临时员工,这些员工薪酬不高但未纳入统计范围,故而造成平均薪酬的虚高。
3.1.4处理逻辑
3.2个人数据处理
个人数据来源于CGSS,全称为中国综合社会调查,是由中国人民大学中国调查与数据中心负责执行的大型学术调查项目,旨在系统全面地收集社会、社区、家庭、个人多个层次的数据,总结社会变迁的趋势,推动多学科领域课题的研究。目前可公开获得的最新数据为中国综合社会调查(2021),它调查的是2020年中国社会的方方面面。
3.2.1数据处理
2021年度中国综合社会调查数据共包含700个变量,做如下处理:
(1)删除未回答个人总收入与劳动收入的样本,得到共7133个微观个体样本;
(2)筛选变量,添加变量表,分为个体信息、家庭信息、职业信息等大类;
(3)匹配个体职业大类,将职业进行分类:
a. 在第一次导出数据时导出样本编码与样本职业的文字格式
b. 在第二次导出数据时导出样本编码与样本职业的代码格式
c. 在第二次导出的表格中以四位编码的第一位为职业大类编码
d. 参考网站信息,对大类编码进行赋值
e. 将职业编码表与个体微观总表以样本编码为标准进行合并
(参考网站:https://www.ilo.org/public/english/bureau/stat/isco/isco88/publ4.htm)
大类
|
中类
|
小类
|
组类
|
国际职业分类技能水平
|
1.立法者,高级官员和管理者
|
|
8
|
33
|
-
|
2.专业人员
|
4
|
18
|
55
|
四级
|
3.技术人员和专业人员助理
|
4
|
54
|
73
|
三级
|
4.办事员
|
2
|
7
|
23
|
二级
|
5.服务人员及商店和市场销售人员
|
2
|
9
|
23
|
二级
|
6.农业和渔业技术员
|
2
|
6
|
17
|
二级
|
7.工艺及有关人员
|
4
|
16
|
70
|
二级
|
8.机械机床操作员和装配工
|
2
|
20
|
70
|
二级
|
9.非技术工人
|
3
|
10
|
25
|
一级
|
0.无法分类的其他职业
|
1
|
1
|
1
|
-
|
总计
|
28
|
116
|
390
|
|
3.2.2关于收入的具体问题
在个人数据中,团队使用到两个与收入相关的关键变量,在CGSS问卷中设问如下:
(1)您个人去年(2020年)全年的总收入是多少?
(2)您个人去年(2020年)全年的职业/劳动收入是多少?
3.2.3对缺失样本的解释
2021年度CGSS调查范围仅限于内蒙古自治区、北京市、宁夏回族自治区、安徽省、山东省、山西省、广西壮族自治区、江苏省、江西省、河北省、河南省、浙江省、湖北省、湖南省、甘肃省、福建省、辽宁省、重庆市、陕西省这19个省市,由此得到的相关结论可能在全国范围内不具有普适性。此外,根据该数据进行个人薪酬预测时,将无法预测到19个省市之外的人群薪酬情况。
3.2.4处理逻辑
3.3薪酬预测过程
我们利用个人数据进行薪酬预测,希望用户输入个人信息后就可以看到自己未来的薪酬情况。要实现这一目的,离不开精确预测和动态交互两大步骤的有机结合。
3.3.1薪酬预测模型
为了实现精确预测,我们采用非常流行的神经网络算法。根据数据特征和线性拟合的不理想结果,我们使用了更为合理的线性和非线性双分支的网络结构,整个训练和预测流程如下图所示。
模型结构代码如下图。由于预测的范围较大,我们使用了7083个个人数据进行模型训练,共训练1000次(epoch),每次训练选取的样本大小(batchsize)为64,前500次学习率大小设置为1e-3,后500次下降为1e-4。训练使用Adam优化器,可基于训练数据迭代地更新神经网络权重。
3.3.2预测结果上传
通过55个输入条件的不同组合,我们得到年总收入和年劳动收入这两个输出结果的不同取值。这些预测结果由字段相同的171个子数据集构成,每个子数据集大约100万条数据,总计数据量为152,157,852。我们将其批量上传至FineBI平台,并依据相同的字段合并为一张数据表。
4.可视化报告
4.1原稿与图表
首先,我们在头脑风暴阶段进行图表选择,针对不同目的选择不同的图表形式。
其次,按照分析思路规划每一个模块的内容、意义和相应的图表,并用墨刀(https://modao.cc/)进行原型图的绘制。
最后,选定仪表板样式,包括配色、组件背景等的预设。
- 总体色调:浅色系列,莫兰迪橙色色调;
- 背景色:米白色;
- 图表配色:橙色作为暖色与薪酬等金钱的颜色一致,用于描述薪酬较为合适,因此选择以橙色、暗红色为主色调;蓝色与橙色在色盘上属于对应色,搭配起来更和谐,因此配有撞色系的蓝色,使图表看起来更清晰直观;
- 图表设置:去掉图表的背景网格线,并给所有图表添加统一的矩形圆角边框;
- 文字设置:对重点内容加粗或更换颜色表示。
4.2报告内容
4.2.1Part1:职工薪酬概览
该部分分析基于企业数据,用户可点击自定义选项栏,遍览不同日期、行业和地区的上市企业职工薪酬情况。其次,柱状图和折线图呈现了上市企业职工人均薪酬的年度变化情况和与历年CPI、GDP平减指数的对比情形。最后,上市企业薪酬汇总表帮助用户了解每一家企业所属行业、省份、城市和年度职工人均薪酬的具体信息。
4.2.2Part2:薪酬多维分析
该部分基于企业和个人数据,从地区和行业宏观、企业中观和个人微观三个视角切入,全面深刻地揭示国民薪酬的特征性事实。
(1)致广大,望远镜下看中国:地区和行业薪酬分析
a.运用地图、词云图和箱型图整体展示地区平均薪酬分布及差异情况,由此获知中国西北部、东部沿海地区以及京津沪等一线大城市的上市企业平均薪酬高于广大的中西部内陆地区。除此之外,用户可利用地图钻取功能查看不同省市的上市企业职工薪酬,由于三图联动效果的设置,用户可以在词云图中看到对应地区中平均薪酬最高的企业,在箱型图中了解所选地区职工薪酬的年度变化。
b.运用矩形树图和箱型图整体展示行业间职工人均薪酬对比情况,由此获知银行、非银金融、房地产、建筑装饰、交通运输等与金融、房产相关的重要典型行业的平均薪酬高于纺织服饰、轻工制造、家用电器、基础化工等非热门轻工业。用户同样可以利用钻取功能看到这些行业背后的企业。
(2)见舆薪,透视镜里观企业:企业薪酬分析
a.运用散点图展示不同性质、规模、年龄阶段企业的职工薪酬情况,发现民营企业的职工薪酬高于国企,企业规模与职工薪酬没有必然关联,且年龄过大和过小的企业职工薪酬都不高。仪表板右侧支持自定义选择企业的性质、规模和年龄区间,用户可自由查看各细化条件下的散点分布情况。
b.运用散点图和线性拟合趋势展示上市企业劳动生产率、净利润与职工人均薪酬的线性关系。分析可知,上市企业自身的生产进步与利润向好均有利于提升职工人均薪酬,表明企业有实力和能力给职工分蛋糕,能够坚持贯彻发展成果由人民共享的理念。
(3)尽精微,显微镜前抿众生:人群薪酬分析
利用个人微观数据,展现不同个体特征下的薪酬分布规律,包括性别、户口、省份、专业、职业类别、年龄、学历、工作经验和婚姻状况。所有组件均可联动,因此用户可任意选取,查询各细化条件下的薪酬情况,并通过“重置”按钮轻松回到初始状态。
a.对于性别和户口这类二维特征,设置简单的自定义选项框;对于不同省份,仍然绘制可钻取的地图;对于不同专业,利用词条云清晰展示薪酬高低;对于多维的职业类别,则利用矩形树图呈现各职业的收入排行和差异。分析可知,东部沿海地区的人均收入高于内陆地区,军事、教育、农学、管理和经济学专业的人群收入更高,立法者、高级官员、管理人员、技术人员和专业人员的收入更高。
b.对于年龄和工作经验这类跨度较大的数值型特征,利用范围面积图展示收入分布变化;对于学历水平和婚姻状况这类可分组的属性特征,利用横向对比柱状图展示收入的组间差异。分析可知,收入随年龄和工作经验呈现先递增再递减的趋势,转折点分别为26岁和26年左右,且收入在60岁之后基本保持稳定波动;学历水平越高的人群收入越高,且等级越高的学历跨越会带来越高的收入增长;处于同居、离婚和未婚状态下的人群收入高于已婚和丧偶人群。除此之外,我们还讨论了不同职业的加班情况,发现加班广泛存在于各行各业,周加班时长平均达到11.43小时,但能获得加班工资的那部分时长比例甚至不足一半。
4.2.3Part3:薪酬预测模型
若说报告的前两个部分是客观地摆事实与讲道理,那么第三部分就是切实地预测与评估。该部分突破了传统数据分析基于数据本身特征所做的描述性工作,创新性地利用已有数据来达成对未知世界的预测,形成从“分析已知到探索未知”的思想跨越。这对于预测的精确度提出了较高要求,因此我们利用机器学习算法中的神经网络进行模型搭建,以期无限逼近真实世界下的薪酬情况,据此帮助个人进行理性的职业选择和人生决策。
利用模型,我们遍历所有的条件组合情形,将预测得到的152,157,852条结果导入FineBI,并在仪表板中制作一个简易的交互式个人薪酬模拟器,用户只需输入年龄、性别、所在省份、户口等必要条件,就可以看到自己将获得的年总收入和年劳动收入。该模型经过训练后,均方误差可以达到0.01,拟合优度高达87%,表明模型能够在87%的程度上预测个人薪酬,预测精确度和可信度高。
4.3报告全局总览
5.参赛总结
5.1FineBI工具
5.1.1优点
(1)数据处理可溯源
数据处理界面右侧的溯源功能使整个数据处理过程更加透明化和清晰化,便于所有成员查看,除此之外,还支持各处理步骤的自由移动、执行和隐藏,减轻重复处理和返工的麻烦,大大提升数据处理的效率。
(2)数据组件可联动
相较于静态图表而言,可联动的动态图表最大化程度提升了数据的利用率,丰富了数据透视的范围,可满足用户的个性化数据查询需求。
(3)大型数据无负担
在模型预测部分,我们的预测结果由171个子数据集构成,总量达亿级规模。FineBI的数据批量导入和自动识别合并选项大大减轻了我们的工作量,后续处理过程也十分流畅。
5.1.2相关建议
(1)在【仪表板样式】中,无法对某个组件的边框、背景进行单独设置;
(2)在绘制【散点图】时,如果要进行线性拟合,只能进行较为基础的趋势线添加操作,而无法计算线性拟合的回归方程和R方;
(3)在调整【移动端布局】时,功能较为局限,无法更改字体。
5.2流程回顾
团队成员对本次比赛高度重视,力求尽善尽美,不留遗憾。暑假期间,由于成员身处各地,为了实现高效沟通和顺利推进比赛,团队利用新一代生产力工具FlowUs平台打造一体化协作空间,在平台上制定备赛计划,发布重要通知,共享相关链接,随时记录想法和建议,一步步按时高效完成。自7月10日报名参赛以来,团队每周开展三次腾讯会议,汇报个人进展并明确下一步任务安排,每次会议时长1小时。
在选题阶段,为了增强对选题的整体把握和认同,我们立足专业所学,重点关注贴近现实的社会民生话题。在任务分配阶段,为了使每一位成员完整参与以及最大化发挥自身特长,我们不仅布置了写稿和绘图等公共任务,还根据个人角色定位设置专项任务线。我们积极利用教程资源、参与直播学习并在帆软论坛寻求帮助,以大力探索和挖掘FineBI的可视化功能;我们虚心学习历年大赛优秀作品并汲取经验,以强化对作品展现形式和方式的理解;我们时刻查漏补缺、字斟句酌,在细节上追求极致,以诚挚和热情孕育我们共同的成果。
备赛进程
|
工作要点
|
确定选题
|
立足专业,关注民生和社会热点
|
软件学习
|
跟进直播课程,利用公共资源
|
开展实施
|
各司其职,高效沟通,协同合作
|
修改完善
|
借鉴优秀作品经验,注重图表文字美化
|
5.3参赛感想
晓晓:此次参赛,是我们非常难忘以及值得珍藏的一次体验,首先,我们在整个参赛过程中深深体会到可视化工具在各行各业的重要性,也达到了我们最初“玩转帆软”的小目标,现在本团队在使用帆软制图和处理数据时已经非常丝滑与熟练;其次,我们本次的选题也是来源于今年大学生就业不太景气的现状,我们希望能做一份为大学生就业提供一些价值以及参考建议的作品,在这个过程中本团队也受到一些对未来就业的启发。最后,这是本团队在本科期间的最后一次合作,我们即将踏上不同的旅途,未来或许我们还会有很多合作,但那时我们是来自五湖四海的不同身份啦,因此我们都无比珍惜这次备赛的一分一秒,整个合作过程都非常愉快!
虎虎:初次相识数据分析之时,浅显地以为数据分析不过是绚丽的图表和顺畅的交互;再次与导师交谈数据分析时,老师告诉我们不要让数据分析只停留在展示,透过数据能表达什么、能揭示什么才是更重要的;有幸在晓晓的推动下带领我的黄金团队参与2023BI数据分析大赛,每天徜徉在优秀作品库中让我能够切实感受到“有用”的数据分析是什么样的。因此,我们希望这份数据分析作品最起码是对读者有用处的,在当下的时局,薪酬诚然是一个敏感的话题,却也是一个贴近民生的话题,希望大家看过我们的报表后能有一点点启发。
图图:此次参赛,由选题和FineBI的使用生发出几点思考。第一选题上,我们以爆火的“孔乙己文学”为引子,引出了薪酬这样一个贴近民生的大话题。的确,我们的这份报告触及现实、无关风月,但它并不具备择业指南这样的性质。“仓廪实而知礼节,衣食足而知荣辱。”诚哉斯言,我们在奔赴理想高地的路上,怎能没有尘世的盘缠?至于想要带多少盘缠,这完全取决于自身的价值判断与抉择。第二,FineBI值得一夸,轻松易上手,强大的动态呈现功能让人惊叹。
兔兔:“学历不但是敲门砖,也是我下不来的高台,更是孔乙己脱不下的长衫”,近年来孔乙己文学让众多大学生产生共鸣,少年不懂孔乙己,而读懂已是书中人,本团队通过大量数据分析以期鼓舞当代有志青年,使其不困于长衫,不囿于现状,正确认识到自身的价值,从而散发自己的光亮。在这一过程中,我充分认识到FineBI的便捷性与高级感,能够非常迅速的实现多种功能,包含各种图形,是可视化工作的良好基石。
王总:这是一次很特别的参赛经历,受专业所限,以往我很少关注薪酬这样的社会民生话题,是以队长带着这个话题来找我时,我说“我想试试”。这中间代码一直在写写改改,训练效果也不尽人意,让我深深体会到理论是一码事,实践又是另一码事,想做到熟练运用真的不容易。顺利跑完程序并把所有预测结果导出的那一刻,我心中难掩喜悦。有位大拿说过,“所有的模型都是错的,但有一部分是有用的”,希望我们的薪酬预测模型是有用处的吧,希望它能给徘徊在十字路口的人们带来帮助!
作品公共链接:https://bisolutions.fanruan.com/webroot/decision/link/S7VS |