统计中的线性与Logistic回归

医路糜语

在医学、生物学中，许多现象的发生、发展和变化是多种因素在一定条件下相互影响、相互制约产生的共同结果。例如，某种疾病的发生，受致病源、环境条件及机体状况等多种因素的影响；疾病的诊断要根据病人的各种症状、体征及检验结果来决定；疾病的预后要视治疗情况及机体状况而定；某些医学和生物学现象的分类要根据许多生物学特征来进行，等等。对这些问题的研究，在统计学上就需要采用多因素的分析方法，即多变量统计分析方法。表示原因的变量称为自变量，表示结果的变量称为应变量。研究 “一因一果”，即一个自变量与一个应变量的回归分析称为一元回归分析；而 “多因一果"，即多个自变量与一个应变量的回归分析称为多元回归分析。本文对临床常用的简单线性回归，多重线性回归、logistic回归进行介绍。

1.简单线性回归

简单线性回归用于探究一个应变量与一个自变量的关系（如身高与体重的关系），在进行体重与年龄的简单线性回归分析时，将年龄称为自变量（，用X表示；体重称为应变量,用Y表示。拟合成直线回归方程表示如下：，其中为回归方程预测值，a和b分别对应总体α和β的样本估计值。当b＞0时，Y随X的增大而增大； b＜0时，Y随X的增大而减小； b=0时，Y与X无直线关系。

2. 多元线性回归

在进行冠心病患者动脉狭窄程度与炎性因子水平、、血清胆固醇等因素的多元线性相关时，冠心病患者的动脉狭窄程度为应变量，用Y表示；而其他因素为自变量，分别用X1、X2、X3等表示。根据样本数据数据对模型参数进行估计得到的多元线性回归方程如下：

同简单直线回归的参数相似，其中b1、b2、b3…bm是β1、β2、β3…βm的估计值；一组自变量X1、X2、X3…Xm对应的Y的平均值为估计值。

在回归分析问题中，影响应变量Y的自变量往往会有很多，且贡献会不尽相同，有些自变量对应变量的影响可能很小。如果将一些作用不大的自变量纳入模型，反而会影响预测的精度。因此，多重线性回归中的第一步就是要对自变量进行筛选。自变量的筛选方法比较多， SAS软件中提供了八种方法，如前进法，后退法，逐步筛选法，最大R ² 增量法等。

究竟哪一种筛选变量的方法最好，没有绝对的定论。一般来说，逐步回归法和最优回归子集法较好。对于一个给定的资料，最好尝试多种变量筛选的方法，结合以下几条评价标准，从中选择最佳者。

3. logistic回归

Logistic回归属于概率型回归，即因变量可以是某事件（代表自变量取某特定值所对应的事件，如患者被治愈）发生的概率。其应用范围很广，不仅适用于流行病学中病因学的分析，也可用于临床疗效、卫生服务等。因变量的性质通常可以有以下三种情形： 1.二值变量、 2.多值有序变量、 3.多值名义变量。自变量可以是连续型变量，也可以是离散型变量。若是多值名义变量，应转换成哑变量；若是多值有序变量，通常情况下可给予连续的数值，必要时也应产生哑变量。

其方程为

同多重线性回归一样，当比较暴露因素对因变量的贡献大小时，由于各自变量取值单位不同，也不能用偏回归系数的大小作比较，而需用标化偏回归系数来作比较。建立logistic回归方程的过程也就是求常数项α及各偏回归系数βj的过程。 Logistic回归按照因变量（即反应变量）的类型可分为：因变量为二值变量的Logistic、因变量为多值有序变量的Logistic回归、因变量为多值无序（或名义）变量的logistic回归，Logistic回归按研究设计类型可分为非条件logistic回归（成组设计）和条件Logistic回归（匹配设计）。

统计中的线性与Logistic回归

发表评论 取消回复

发表评论取消回复