【2021夏季挑战赛】浙江大学近年招生计划数据分析
一、选手简介1、选手介绍帆软社区用户名:chenliang。职业简介:目前就职于物流行业,主要从事信息系统开发、运维工作。2、参赛初衷论坛里面有很多精彩的数据分析案例,涵盖很多行业。自己希望通过这次比赛,进一步掌握fineBI的使用,主要是掌握常用的图表使用方法和步骤。同时,进一步理解商业智能需要解决的问题,如何通过信息化工具,完整的、专业的得到我们想要的产出。也希望和更多FineBI大神交流学习,进行数据可视化分析,让数据成为生产力。 二、作品介绍1、业务背景/需求痛点近段时间,正是高考结束,等待分数查询的时间。一旦分数放榜,广大考生就要进行志愿填报。填报志愿需要了解哪些内容呢?国家分数线、学校分数线,除了分数,考生也应该多参考志愿学校的招生数据。这些数据包括学校的整体情况、本年度招生计划。从录取方面来看,有必要对学校的情况以及招生计划做信息公开。从填报方面来看,有必要了解志愿学校的整体情况,包括招生、学习、就业各方面。本作品通过浙江大学招生计划近几年数据分析,给广大考生做一个招生概况分析,为即将填报志愿的过程提供数据支撑。该选题是浙江大学的招生计划数据分析,只要替换数据源,可以通过简单的设置,进行复用。如果有其他的数据指标,也可以在此基础上进一步扩展仪表板。2、数据来源 八爪鱼采集器提供参考数据; 为了更好展示浙大的整体情况,参考2021高考志愿填报服务平台网站https://gkcx.eol.cn/school/114/provinceline数据。3、分析思路 根据志愿填报服务平台的介绍,对学校的软件、硬件情况进行整体的说明; 根据参考数据内容,重点分析招生计划人数。主要从招生区域和招生专业两个维度进行数据分析。4、数据处理(4张Excel表+1自助数据集) 4.1 全国招生计划表(八爪鱼提供的参考数据):
4.2 学校概况
4.3.学校关键词
4.4 毕业生就业去向。其中经度、维度通过网站查询获得。
4.5 根据浙江省招生计划表,进行数据清洗,得到自助数据集。主要包括:选字段,例如组、自定义字段、当前时间、选科要求等字段,不参与数据分析,对这些字段进行过滤。
新增列,表中的专业字段,不仅文字内容很长,而且不利于分类统计,我们对专业名称字段按照括号的位置进行截取。 if(find("(",专业名称),left(专业名称,find("(",专业名称)-1),专业名称) 新增列,表中的时间字段只有“年”,确实我们可以将这个字段通过转换,指标转换为维度,但是转换成维度之后,数据自动进行了分组, 设计人员无法识别分组对应的是哪一年。因此进行简单的字符转换。
过滤,对于科目这一列,发现有3行数据是“科类”,且对应招生计划为空,因此需要将这行数据过滤掉。
5、可视化报告 第一部分是对学校概况的分析。主要包括以下几个部分: 学习指数、生活指数、就业指数、综合评分的仪表盘,通过这些指数卡数据,可以大致了解学校的整体概况。
教学点,例如博士点、硕士点、国家重点学科、实验室。
学校概况,采用词云图,进行简要说明。
就业生就业去向,采用流向地图。从图中可以看出毕业生主要流向浙江、北京、上海、广东、江苏。
第二部分是对招生人数进行统计,数据源包括近4年数据,均采用柱形图,统计全国各省招生人数。因为进行了降序排列,很直观的看到,本省考生招生人数最多,几乎占总数一半。
然后,利用指标卡,统计近4年来招生总人数,除了2019年,都是逐年递增。这个增长趋势和上面的全国各省招生计划增长趋势大体是一致的。
按照专业划分,首先按照文科、理科、综合大类划分,
然后对专业细分,采用漏斗图,因为专业类别较多,只统计招生计划前10的专业大类。除了综合性学科实验班,一些高新技术专业增加了计划数,为这方面的考生提供了更多的机会。
最终结果呈现的页面布局。
三、参赛总结数据分析,首先要明确需求是什么,要有针对性的分析。有了目标之后,才能针对性的找到原始数据,才能找准数据维度和数据指标。也只有围绕需求,才能产出需要的结果。 克服的困难:一方面是数据的清洗。看似简单,实际上需要对分析的数据有全面的认识和专业的了解,本次数据的选取可能还有不全面不科学的地方,也请各位大神批评指正。 另一方面是图表的选择。不能为了做图表而选择图表,应该是围绕我们的分析内容,选择最合适的图表作为基础,紧紧围绕需求,不能生拉硬拽。同时,遇到不熟悉的图表,要多参考帮助文档,更多练习。 感谢帆软提供这次比赛机会,可以让自己通过实操,不仅仅学会分析工具的使用,同时提高数据分析的思维能力。最后,借此机会,祝愿所有老师桃李满天下!所有考生都能金榜题名!浙江大学招生计划.pdf (2.2 M)