【2020冬季挑战赛】二手车数据可视化
1.选手简介
1.1.参赛初衷
享受这种分析数据的过程,虽然没有接受过关于数据分析和可视化的课程。
能够在过程中学习到其他前辈的技能和思路。
2.背景介绍
2.1.数据背景介绍
我国汽车保有量近年来持续高速增长,二手车交易也正在蓬勃发展,涌现出如瓜子、优信、人人车,等大量二手车交易网站。本次项目我们通过在线抓取瓜子网发布的线上二手车数据,从不同的方面对当前二手车的交易情况进行分析和介绍。
2.2.数据来源
数据抓取:八爪鱼采集器。(爬取网址:https://www.guazi.com/bj;cd;sz;sh;wh/buy/)
数据清洗:通过Excel筛除空白和无效数据。
抓取的数据信息如下:
数据时间:2020年6月。
数据来源:瓜子网各城市(北京、成都、深圳、上海、武汉)网站展示可供交易二手车。
数据量:共抓取1250条数据,经数据清洗后余1135条有效数据。
数据字段:
138395
2.3.分析思路
2.3.1.数据分析目标
二手车市场的数据采集和数据集的预处理;
可视化分析,确定市场二手车的状况;
针对关键因素,提出二手车未来购买的意见。
2.3.2.分析过程
为了有针对性获取我国二手车资源发展状况,我们首先对不同城市的二手车资源进行先验调查。瓜子网的二手车资源主要分布在我国东南沿海地区各大城市以及中部地区各大省会城市,其中以珠三角、长三角地区为突出。如图1:
138396
图1.各地区二手车数量分布
由图我们可以推测:
• 以北京-武汉-深圳,成都-武汉-上海两条连线为重心,构成十字交叉线对周围区域进行辐射推广。
• 优先推广流动人员多、车辆需求量大、经济发达的东部沿海地区。
• 其余地区/省份不求数量规模,争取在省会城市进行品牌推广。
如图2:
138397
图2.十字交叉线
同时发现:
• 东北地区辽宁省,只有大连拥有较少的线上二手车资源。如其中沈阳市作为东北省份的省会城市,面积广阔道路畅通且公共交通发达程度相对较低,该市的线上二手车资源相比南方其他省会城市少很多。
• 东南沿海地区,经济发达流动人口较大,但是线上二手车资源较少,可能与东南地区交通方式更便捷有关。
• 中东部地区主要为平原,二手车资源丰富,市场潜力极大。
• 西南地区,气候优异旅游业发达,外来人口川流不息,而线上二手车资源却并不是很多。可能受山地地理特征的影响,车辆的交易流通的效率和便利程度相对较低。
各城市的二手车价格参差补齐,但多少都存在一些高价车辆,拉高车价均值。接下来使用车价的中位数进行展示。如图3所示:
138398
图3.全国价格分布图
由此可见,该二手车交易平台的战略确实着重于东南沿海城市,不论是二手车数量还是价格方面都比内陆城市更为优异。其中西南地区虽然二手车数量和品牌较少,但价格中位数也低于上海等其他地区。针对西南地区,应该是以质量取优,在当地做好品牌形象再逐渐扩充市场份额。
在经过以上分析后,我们选取了北京、上海、深圳、武汉、成都为主的重点城市的二手车及其交易的相关数据,按照二手车的价格、品牌、车龄、里程等为总类别,再分出个别小类别进行分析,总体的数据分析思路如图4所示:
138399
图4.二手车数据分析思路
2.4.FinBI数据整理
爬取的数据为excel格式,根据图4的预演的数据分析思路,根据已有的变量数值计算需要的数据,其中二手车残值率=二手车价格/原售价×100%;价格差值=二手车原售价-二手车指导价;车龄=2020-二手车初次使用年份等。除此之外,价值总值、价格均值和各种百分比等都需要根据已有数据进行二次计算。然后将总的excel表格数据通过数据准备选项导入到FineBI后,进行分块,以便后续的数据可视化和图表的制作。
138401
图5.按二手车数量排序top20品牌
如图5所示,以倒序的方式将二手车数量最多的前二十个汽车品牌展示出来,通过计数方式,显然排行第一的大众品牌出现次数最多(119次)。在得出二手车数量排名前二十的汽车品牌后,可进一步通过一次简单的计算得出排行前十的汽车品牌的二手车数量占所有汽车品牌的百分比,如图6所示:
138403
图6.排名前十品牌数量总占比
其他类型数值包括如残差值、车龄、价格总值和价格均值等都是通过类似简单步骤得出的。
2.5.可视化分析
2.5.1.二手车价格分析
以北京、上海、深圳、武汉、成都为主的重点城市内,二手车价格平均值为8.8万元,中位数为7.22万元,极差为329.9万元,标准差为43.8万元,数据呈右偏趋势。
约89.2%的二手车价格在15万元以下,其中占比最多的为5到10万元区间。同时也不缺少高端车型,20万元以上的二手车仍占有一定份额,约占比5%。如图7所示。
138404
图7.二手车价格分布
如图8所示,超过30%的二手车的新车售价在10到15万元,其次超过18%的二手车的新车指导价分布在15到20万元之间。总体来看,约90%的二手车的新车指导价在5到35万元之间,仅有约8%的二手车的新车售价分布在25到55万元之间,新车售价超过55万元甚至更高的二手车占比2%左右。由于二手车的新车指导价分布范围相对更广且不均,因此我选择采用面积图的方式来更直接展现新车指导价的分布情况。
138405
图8.二手车的新车指导价
2.5.2.二手车的品牌属性分析
全国范围内数量最多的自然是大众汽车,平均车价为7.94万元,占比约20%,市场表现的确符合其“大众”的品牌定位。
福特、别克和本田等一众常见汽车品牌,平均车价和数量占比均稍低于大众,共计约占比30%。奥迪、宝马、奔驰三个豪华品牌合计占比约10%,其平均车价为17到19万元,由此可见BBA在豪华品牌入门级市场中的卓越号召力。其余品牌总市场占比约65%,但市场份额与平均车价普遍较低。如图9所示。
138406138407
图9.品牌分布
图10按照二手车均值降序的顺序展示了各个品牌二手车售价总值与均值之间的对比,其中大众的二手车报价总金额远远高于其他品牌,是第二名的两倍之多,虽然大众的二手车售价均值为7.94万元,但大众是二手车数量最多的品牌,占比超过27%。售价总金额第二高的品牌为奔驰,因为作为高端品牌的奔驰二手车平均售价高达19.86万元,但全网奔驰牌的二手车数量在前十的第九位。由于为了完整展示所有品牌的二手车售价总值与均值对比,我选择将这张图表的布局安排在最下面。
138408
图10.不同品牌二手车售价均值与总值对比
2.5.3.二手车年龄与残值分析
二手车车龄分析如图11所示,二手车的车龄绝大部分集中于3-9年以内,其中车龄为5年的二手车数量最多,其次是车龄为4年的二手车。
138409
图11.二手车车龄
138410
图12.车龄与残值率关系
二手车残值率=二手车价格/原售价×100%。随着车龄增加,二手车车领与残值率关系如图11所示,二手车的残值率总体呈降低趋势,可以通过折线图清晰地展现出来。其中,车龄在四年内的残值率总体分布于0.6到1,二手车车龄在五年到八年的残值率总体分布于0.2到0.6,车龄大于八年的二手车的残值率总体分布于0到0.4。
2.5.4.二手车行驶里程分布
近七成的二手车里程数在8万公里以内,而超出12万公里的二手车仅占比约7%。可见市面上流通的二手车,普遍来说公里数都不太长,近八成车辆里程数在十万公里以内。以一般家庭一年汽车里程数两万公里计算,即近八成二手车的车龄在五年内。这一点同上述各年份车辆数量分布的结果大致符合。同时,超出十五万公里的二手车数量少,主要是大众、两田、别克等品牌的二手车。
138411
图13.里程数分布
2.5.5.二手车车龄与里程数及价格的联系
总体来看,车辆里程数与车龄呈正相关关系,价格与车龄呈负相关关系;车辆的里程数随着车龄增长而增长,车辆价格随车龄增长而减少。如图14所示,其中深色为二手车的里程数,浅色为二手车的售价。
138412
图14.不同车龄里程数与价格分布
随着车龄的减小,总体上二手车的售价与原价的差距越来越小。如图15所示,其中橙色为新车指导价,青色为二手车报价。用折线能够反映随着二手车年份(车龄)的变化,二手车报价与其新车指导价之间的差距和变化趋势。
138413
图15.价格差值
2.5.6.探索性分析
138414
图16.性价比分析
根据以上描述性分析的结果,按照四象限分析法的思路进行分析。X轴表示新车价格,Y轴表示折旧率。黑色虚线表示均价35万元。红色虚线的上限是折旧率0.6,下限为0.2。两条虚线之间表示市场上80%的二手车的折旧率水平,以此中间区域为“基准”。
在基准之上,第一象限表明二手车的新车售价高,残值率高,位于该象限的品牌有丰田。第二象限表明该品牌的二手车的新车指导价低,残值率高,位于该象限的品牌有本田、五菱、东风和宝骏等。若品牌位于基准之下的第三象限则说明该品牌的二手车的新车售价低,残值率低,位于该象限的品牌有北汽绅宝。位于第四象限的品牌则为二手车的新车指导价高,残值率低,位于该象限的二手车的品牌有雷诺。
2.5.7.仪表盘最终布局展示
138415
2.6.总结
理清分析数据的思路;过程中要具有耐心,并且虚心向大神们学习。作为一名学生小白,需要学习的还很多,但我很享受这个过程,希望自己慢慢进步。
140320