【2020冬季挑战赛】关于数据分析行业的教育水平分析报告

楼主
我是社区第491595位番薯,欢迎点我头像关注我哦~
1.选手简介

1.1.选手介绍
帆软社区用户名:战到底
职业简介:现在中南大学商学院管理科学与工程专业就读博士研究生

1.2.参赛初衷
  • 希望通过实践提升分析工具技能
  • 和更多数据分析师交流学习,进行数据可视化作品以及分析思维的激烈碰撞

2.场景介绍

2.1.业务背景介绍&数据来源
  • 业务背景:今年一项关于全面展示机器学习和数据科学状态全行业调查在10月份展开。调查研究结果包括哪些人在使用数据、不同行业的机器学习情况以及新数据科学家进入该领域的最佳途径等原始数据。调查数据提供了该行业总体规模的概览,但它也让我们想要了解调查中包含的许多具体社区的更多信息。因此,Kaggle社区受邀深入研究调查数据集,帮助理解来自世界各地数据科学家的不同故事。
  • 需求背景:通过叙述性文本和数据探索的结合,讲述一个关于这个调查中所代表的数据科学社区子集的数据故事。一个“故事”可以用多种方式来定义。挑战在于(通过数据)深入探究特定数据科学和机器学习实践者群体的影响、优先级或关注点。这个群体可以在宏(例如:任何用Python编写大部分代码的人)或微观(例如:在硕士项目中学习机器学习的女性数据科学学生)中定义。      
  • 数据来源:来自Kaggle社区https://www.kaggle.com/c/kaggle-survey-2020/overview/description

2.2.分析思路
  • 分析调查内容和数据,选择故事主题,研究群体数据,撰写故事

2.3.数据整理
  • 在根据分析需要选择指标后,根据图表展示情况筛选数据

2.4.完成分析报告
2.4.1.可视化图表的选择和制作步骤
  • 根据数据特征适应性地选择图表
  • 步骤主要为分析、图表制作

2.4.2.图表分析结论
  • 超过3/4的受访者是拥有学士或硕士学位的人
  • 在受访者中,教育程度与性别无关
  • 超过一半的受访者年龄在30岁以下,他们的受教育程度随着年龄的增长而增加
  • 随着教育水平的提高,在该行业工作的人的比例增加,而学生和失业者的比例下降

2.4.3.排版布局
  • 流式排版布局

2.4.4.分析报告(最终作品)
(1)介绍及资料准备
在数据分析行业,教育水平已成为招聘过程的敲门砖。然而,能力真的随着教育水平的提高而提高吗?受过高等教育的人分析数据的方式和没有受过高等教育的人一样吗?工作的声望和薪水是否会随着教育的增加而增加?教授和博士生和其他人有什么区别?Kaggle社区关于机器学习和数据科学状态的调查数据里存在相应的答案。研究的主要目标是寻找教育水平和与数据分析相关方面(在广泛范围内)之间的关系。

教育水平在很大程度上取决于每个国家的教育体系。然而,ISCED(国际教育标准分类)2011年版教育分为九个层次,包括从幼儿到博士。
  • 0:幼儿教育(教育程度为“少于小学”)
  • 1:初等教育
  • 2:初中学历
  • 3:高中学历
  • 4:中等以上的非高等教育
  • 5:短周期高等教育
  • 6:本科或同等学历
  • 7:硕士或同等学历
  • 8:博士或同等水平

调查数据中的Q4问题是“您已经达到或计划在未来2年内达到的最高正规教育水平是什么?”调查问卷的回答分为4类:本科以下学历的人、本科学历、硕士学历、博士学历。这些级别也可以等同于ISCED级别,分别为0到5、6、7和8。
上图为教育水平变量的分布情况。大部分受访者拥有硕士学位(或接近毕业),约占43%。拥有学士学位的人略少(完成调查的人中有38%)。略超过1000人没有接受过高等教育。很容易注意到,超过3/4的受访者是拥有本科或硕士学历

(2)指标数据分析
现在我们来看看教育的指标
首先观察性别。在受访者中,女性比男性少4倍。在两组中,最受欢迎的教育水平硕士。可以注意到,在整个样本中,没有受过高等教育的人更倾向于男性

你需要达到一定的年龄,才能达到一定的教育水平。没有受过高等教育或本科学位的人多在18岁到21岁之间,而有研究生学位的人多在25岁到29岁之间。

最后一个指标是职业。在受教育程度硕士以下的人群中,学生占比最大。然而,我们可以注意到硕士学位人群中工作是数据科学和学生的占比相似。在这些教育水平的人中,也有不少数据分析师和软件工程师。博士主要从事科研工作处于数据科学家的位置。

(3)结论和摘要
  • 超过3/4的受访者是拥有学士或硕士学位的人
  • 在受访者中,教育程度与性别无关
  • 超过一半的受访者年龄在30岁以下,他们的受教育程度随着年龄的增长而增加
  • 随着教育水平的提高,在该行业工作的人的比例增加,而学生和失业者的比例下降

那么,受教育程度会影响数据分析的方式吗?毫无疑问,职业群体之间在很多方面都存在着差异,但这些差异并不一定要以教育为基础。正如我们在分析开始时看到的,受教育程度与年龄有很强的相关性,所以差异可能是由被调查者的年龄造成的,而受教育程度只起到了明显的相关性作用。

(4)参考
       Michal Bogacz. Education level affects data analysis? https://www.kaggle.com/michau96/education-level- affects-data-analysis

2.5.总结
感谢帆软提供的学习机会及提醒!附最终成果:




分享扩散:

沙发
发表于 2020-12-17 17:51:40
好难见到这种分析啦
板凳
发表于 2021-1-5 18:34:25
地板
发表于 2021-1-7 10:02:38
好家伙,看的我都想写一篇考研英语二的作文了
5楼
发表于 2021-1-12 08:09:16
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

4回帖数 3关注人数 16765浏览人数
最后回复于:2021-1-12 08:09

返回顶部 返回列表