广义线性模型_数据分析师考试
广义线性模型是线性模型的扩展,其特点是不强行改变数据的自然度量,数据可以具有非线性和非恒定方差结构[59],主要是通过联结函数g()(link function),建立响应变量Y的数学期望值 与线性组合的预测变量P之间的关系: 。
与线性模型相比,GLM模型中Y的分布可以是任何形式的指数分布(如高斯分布、泊松分布、二项式分布),联结函数可以是任何单调可微函数(如对数函数logarithm 或逻辑函数logit)。Y的方差通过方程函数 依赖于其数学期望值 ,这里 , 为比例(或者称为离差)参数[57-58,60]。这些优点使得GLM模型可以处理非正态分布的响应变量,同时可包含定性、半定量的预测变量;Y通过连接函数g(E(Y))与线性预测因子P建立联系,不仅确保线性关系,且可保证预测值落在响应变量的变幅内,并可解决数据过度离散的问题,从而使GLM逐渐成为植被-环境关系研究的重要模型,并得到越来越多的关注。GAM是GLM模型的半参数扩展(semi-parametric extensions)[59],与GLM不同的是其函数的组成成分是光滑函数(smooth Functions)。GAM也是通过联结函数,建立响应变量的数学期望值与预测变量的一个光滑函数的关系: 。假如以物种的出现或缺失为观测变量,则响应变量遵循二项式分布(取值为0或1),某物种出现的概率可用逻辑联结函数(logistic link function)来表示 , GAM形式就可以写为 。GAM模型的优点,在于其解决响应变量与预测因子间的高度非线性和非单调关系方面的突出能力,是一种基于数据的模型(data-driven),数据决定着响应变量和预测因子之间的关系[58]。同时,GAM模型可同时针对不同的变量,采取不同的策略建模,如可对部分预测因子进行线性拟和,而对其他因子通过光滑函数进行拟和,故GAM有时也称为半参数模型。
正因为如此,GAM模型具有高度的灵活性,且能有效揭示数据中所隐含的生态关系,提高我们对生态系统的理解。这些特点使GAM模型成为植被-环境研究中应用较为广泛的模型之一,并有研究进一步提出了GLM和GAM扩展模型,如矢量广义线性模型(VGLM)和矢量广义相加模型(VGAM),可以容许不止一个线性或相加因子(linear/additive predictor)。另有不少学者则将GAM模型与GIS结合,对植被空间分布进行研究,如A.Lehmann等[18]开发的基于S语言程序模型GRASP可有效地实现GAM分析结果与GIS的结合,将模型建立、验证与空间预测制图统一起来。其他一些统计程序,如SAS、STATISTICA等也逐渐将GAM模型纳入,作为数据挖掘的重要工具。