统计数据类型与对应的相关性分析方法
在统计学中,统计数据主要可分为四种类型,分别是定类数据,定序数据,定距数据,定比变量。
1.定类数据(Nominal):名义级数据,数据的最低级,表示个体在属性上的特征或类别上的不同变量,仅仅是一种标志,没有序次关系。例如, ”性别“,”男“编码为1,”女“编码为2。定类变量之间的相关系数,只能以变量值的次数来计算,常用λ系数法;
2.定序数据(Ordinal):数据的中间级,用数字表示个体在某个有序状态中所处的位置,不能做四则运算。例如,“受教育程度”,文盲半文盲=1,小学=2,初中=3,高中=4,大学=5,硕士研究生=6,博士及其以上=7。定序变量的相关性测量常用Gamma系数法和Spearman系数法;3.定距数据(Interval):具有间距特征的变量,有单位,没有绝对零点,可以做加减运算,不能做乘除运算。例如,温度。定距变量的相关性测量常用Pearson系数法;4.定比变量(Ratio):数据的最高级,既有测量单位,也有绝对零点,例如职工人数,身高。一般来说,数据的等级越高,应用范围越广泛,等级越低,应用范围越受限。不同测度级别的数据,应用范围不同。等级高的数据,可以兼有等级低的数据的功能,而等级低的数据,不能兼有等级高的数据的功能。