然而,分层分析仅仅适用于混杂因素较少,且多为分类变量的情况。当我们的研究中存在较多的混杂因素,且混杂因素较为复杂(例如混杂因素为多分类变量或连续变量)时,应该如何对混杂因素进行控制和调整呢?
今天我们就来一起讨论下,大家平时最常用到的多因素调整分析法。
多因素调整分析
三种回归模型
在多因素调整分析方法中,根据因变量的类型不同,我们最常应用到的三种回归模型即:多重线性回归、logistic回归及Cox回归。三种回归模型应用的条件和区别如表1所示。
需要强调的是,应用回归模型进行多因素调整时,任何回归模型都是一个黑匣子,一定要考虑到每个回归模型的使用条件及模型的稳定性,如因变量的类型、分布特点、自变量之间的独立性、共线性等问题,切忌不要盲目套用模型,以免得出错误的结果。
考虑三个问题
我们在既往的内容中已经详细介绍过了关于三种回归模型的软件操作步骤,很多研究者就认为把所有混杂因素全部都放进回归模型中进行拟合,不就都可以调整了么?事情当然没有这么简单,统计分析并不是简单的数字游戏。
(统计操作教程可从医咖会公众号中找到:【合集】23种统计方法的SPSS详细操作)
2.Didtheinvestigatoraccuratelymeasurealltheseprognosticfactors?(这些预后因素是否被准确地测量?)
准确测量预后因素在多因素分析中尤为重要,因为不准确的测量值无法反映预后因素对结局的真实效应,这样就会在原有混杂偏倚的基础上引入新的测量偏倚,也叫信息偏倚。为了保证测量的准确性,应尽可能使用客观指标,减少主观判断,提高检测的灵敏度。
3.Didtheinvestigatorconductanadjustedanalysisthatincludedalltheseprognosticfactors?(在多因素调整分析中,是否校正了所有已知的预后因素?)
常常会有人问到,到底应该在多因素分析的回归模型中放入多少个混杂因素来进行调整呢?是不是放入的混杂因素越多,研究结果就更准确呢?事实上这个问题并没有一个明确的答案,控制混杂因素的个数主要取决于发生结局事件的多少。控制的混杂因素越多,所需要的结局事件的例数就越多。
孙振球主编《医学统计学》第4版中提到,对于多重线性回归模型,样本量应至少为10-15的自变量个数,而对于logistic回归和Cox回归,结局事件则应至少为15-20倍的自变量个数,供大家作为参考。
研究实例
我们以2007年JAMA期刊发表一篇文献为例,该研究从美国心血管合作项目(CooperativeCardiovascularProject)中纳入了122124名(65-84岁)在1994-1995年因急性心肌梗死入院治疗的患者形成观察队列,并通过美国Medicare医疗保险系统对其进行长达7年的结局事件随访。
研究发现其中有60%的患者(73238)在住院30天内接受了心脏介入治疗,而40%的患者(48886)接受了保守治疗。通过比较两组患者的基线特点,结果显示心脏介入治疗组的患者与保守治疗组的患者相比,更为年轻、男性比例更多、发生休克、高血压的比例更少等,其他基线特征如表2所示。
结果显示,在未调整混杂因素前,HR=0.37(95%CI:0.36-0.37),提示与保守治疗相比,心脏介入治疗可以有效降低心梗患者63%的死亡相对风险。而经过多因素调整后,HR=0.51(95%CI:0.50-0.52),提示心脏介入治疗可以有效降低心梗患者49%的死亡相对风险。
我们可以发现,经过多因素调整后心脏介入治疗对于心梗患者死亡风险的保护作用被削弱,说明多因素调整起到了一定的控制混杂因素的作用。但是作者也在文中提到,仍然有一些因素缺失或者未被记录到,如饮酒量、慢性炎症疾病等因素,这些因素也可能会造成一定的混杂偏倚,因此心脏介入治疗对心梗患者死亡风险的保护作用仍有可能被高估,其真实效应还有待进一步考究。
总结一下,多因素调整分析法,是在观察性研究中控制混杂因素应用最为广泛的一种方法,而且调整后回归模型的参数解释也非常直观易懂。但是由于研究者往往无法全面收集信息,或者无法进行准确测量,或者仍存在一些未知的混杂因素,而回归模型中需要调整的混杂因素的个数又往往受到结局事件的限制,这些都会对多因素回归模型的结果造成一定的偏倚,在应用时也需要多加注意。
在下一期内容中,我们将继续为大家介绍观察性研究中控制混杂因素的另一种深受大家欢迎的新秀方法--倾向性分析。