| 1、鸢尾花数据集鸢尾花数据集(Iris)是一类多重变量分析的数据集。最初是埃德加·安德森从加拿大加斯帕半岛上的鸢尾属花朵中提取的地理变异数据。它首次出现在著名的英国统计学家和生物学家Ronald Fisher 1936年的论文《The use of multiple measurements in taxonomic problems》中,被用来介绍线性判别式分析,证明分类的统计方法。该数据集是在机器学习领域一个常用的数据集。 其数据集包含了150个样本,都属于鸢尾属下的三个亚属,分别是山鸢尾、变色鸢尾和维吉尼亚鸢尾(Iris Setosa,Iris Versicolour,Iris Virginica),每类50个样本。四个特征被用作样本的定量分析,它们分别是花萼和花瓣的长度和宽度。基于这四个特征的集合,Fisher发展了一个线性判别分析以确定其属种。 该数据集测量了所有150个样本的4个特征,分别是:sepal length(花萼长度)、sepal width(花萼宽度)、petal length(花瓣长度)、(花瓣宽度)。以上四个特征的单位都是厘米(cm)。 
|  |  |  |  
| 山鸢尾(Iris Setosa) | 变色鸢尾(Iris Versicolour) | 维吉尼亚鸢尾(Iris Virginica) |    详细数据集可以在UCI 数据库(http://archive.ics.uci.edu/dataset/53/iris) 中找到。 
2、数据处理  在FineBI6.0中上传数据集 iris.xls (38 K)。   
| 特征名 | 特征解释 | 数据类型 |  
| sepal_length | 花萼长度(单位cm) | 数值型 |  
| sepal_width | 花萼宽度(单位cm) | 数值型 |  
| petal_length | 花瓣长度(单位cm) | 数值型 |  
| petal_width | 花瓣宽度(单位cm) | 数值型 |  
| species | 种类 | 文本型 |  为了方便,在原数据集中增加了特征ID(数值型)。 对数据做简单处理,把ID改为文本型,其他特征名称改为中文。 
   3、数据可视化  3.1 花萼长宽分布  图表类型选择“散点图”,横轴“花萼长度”,纵轴“花萼宽度”,细粒度“ID”,颜色“品种”。调整下值轴最小值“3”,最大值“9”,左值轴最小值“1”,最大值“5”。   
   3.2花瓣长宽分布  同一方法可以得到花瓣长宽分布。 
   散点图显示,花瓣长和宽有较强的相关性。   3.3 其他相关性  也可画出其他散点图,显示不同数量关系间的相关性,如花瓣长度和花萼长度之间的关系。 
 3.4花瓣长度箱型图  图表类型选择“自定义图表”,横轴“品种”,纵轴“花瓣长度”2次,细粒度“ID”,颜色“品种”。图形属性中,第一个“花瓣长度”为”箱型图“,第二个“花瓣长度”为”点“。 
 3.5数据分布面积图  为了排序方便,此处添加一个计算字段“序号”,IF(LEN(${ID})=1,CONCATENATE("00",${ID}),(IF(LEN(${ID})=2,CONCATENATE("0",${ID}),${ID}))),把ID都变成三位数字。 
     图表类型选择“范围面积图”,横轴“序号”,纵轴“花瓣长度”“花瓣宽度”“花萼长度”“花萼宽度”,颜色“指标名称”。   
   数据集中1-50、51-100、101-150分别是三种不同品种,图中显示出明显差异。 4、总结鸢尾花(Iris)是一个经典的数据集,数据规整,在数据挖掘和机器学习中经常用来讲解分类算法。使用FineBI6.0可以使用可视化的方法探索特征之间的关系。 |