【简介】感谢网友“网络”参与投稿,这里小编给大家分享一些,方便大家学习。
学习园地
常见医学论文统计学问题及释疑(三):
相关回归分析中存在的问题
张迪 陈雯 凌莉
恰当的统计学分析方法的选择是医学科研和论文撰写的重要组成部分之一,它直接关系到医学论文的质量和科研成果的准确性、科学性。大量的外科学研究均会遇到对两个或多个随机变量之间的关系进行量化研究,确定他们之间有否关联及关联程度的问题,这时就需要用到相关分析或回归分析[1-3]。相关分析的主要方法有线性相关和非线性相关;其中,线性相关又包括积差相关、秩相关和关联性分析等。回归分析的主要方法有线性回归、回归和Cox回归等。选择恰当的相关回归分析方法需要综合考虑研究目的、研究设计类型和资料特点,对任何一点的忽视都有可能导致相关和回归方法使用的错误。相关分析中常见的统计学问题主要有:不了解资料特点,错用相关分析与关联性分析;混淆参数检验与非参数检验应用前提,错用积差相关与秩相关。回归分析中常见的统计学问题主要有:对因变量为分类变量的资料误用多重线性回归;对生存资料误用回归。本文将针对上述问题,结合外科学科研论文进行辨析与释疑,希望对广大医学工作者开展科研和撰写论文有所裨益。
1.相关分析的实例解析
1.1 不了解资料特点,错用秩和分析
促血管生成素-2((-2,Ang-2)及其特异性酪氨酸激酶受体-2(Tie-2)在介导肿瘤生成通路中起重要作用。为了解结直肠癌患者肿瘤组织中Ang-2与Tie-2表达的相关关系,某研究通过免疫组织化学法检测了54例结直肠癌患者术后肿瘤样本中的Ang-2与Tie-2表达情况,作者采用秩相关分析,结果显示相关系数r=0.497,P,故认为结直肠癌患者的肿瘤组织中Ang-2与Tie-2的表达呈正相关关系。
辨析与释疑 针对本例的资料是典型的交叉分类2×2表资料,分析思路一般是根据两个定性变量交叉分类计数所得的频数资料(列联表)做关联性分析,可采用χ2检验。原作者未对资料特点进行分析就采用秩相关分析是不合适的。
秩相关是一种非参数统计方法,它是利用两变量的秩次做线性相关分析,对原变量的分布不作要求,多用于定量资料中不服从正态分布的资料或者总体分布未知的资料,也可用于定性资料中的等级资料。
1.2 混淆参数检验与非参数检验应用前提,错用积差相关与秩相关
为探讨丙型肝炎患者血清丙型肝炎病毒( C ,HCV)-核糖核酸(RNA)与丙氨酸转氨酶(ALT)的关系,某研究采集了132例已确诊丙型肝炎患者的血清样本,通过荧光定量聚合酶链反应检测患者血清HCV-RNA含量,通过生化分析检测患者血清ALT含量。原作者考虑到资料是定量资料,故采用相关分析探讨丙型肝炎患者血清中HCV-RNA与ALT的关系,结果显示相关系数r=0.40,P=0.695。因此,作者认为HCV-RNA水平与ALT浓度之间的相关性不明显。
注:ALT 1U/L=16.7 nkat/L
辨析与释疑 作者在分析丙型肝炎患者血清中HCV-RNA与ALT的关系时,未考虑使用积差相关分析应用的前提条件,只根据资料是定量资料就直接采用积差相关是不恰当的。
当采用积差相关分析探索两个变量间的相关关系时,需要满足以下几个条件:第一,两个变量均为随机变量而非认为设定的变量(如药物剂量);第二,两变量应呈双变量正态分布;第三,散点图呈线性趋势;第四,各个观察值间是相互独立的,只有同时满足以上4个条件时才可以采用积差相关分析。据相关文献报道,本例中涉及的变量ALT和HCV-RNA,均不服从正态分布,因此,采用积差相关分析是不合适的。
对于两变量不服从正态分布,数据本身有不确定值,总体分布类型未知或为等级资料时,我们可以采用秩相关来分析两个变量间的相关关系。
2.回归分析的实例解析
2.1 对因变量为分类变量的资料误用多重线性回归
为探讨影响肝外伤手术预后的因素,某研究采集了63例肝外伤患者的一般资料、肝损伤程度资料、治疗方式及治疗结果资料。原作者采用多重线性回归探索患者年龄、受伤至就诊时间、收缩压、腹膜炎症状、血红蛋白水平、白细胞计数及分类、是否多发伤、腹腔穿刺情况、呼吸频率和脉率、肝脏损伤程度和术中出血量对预后(有否并发症)的影响。结果显示患者受伤至就诊时间、收缩压、心率、出血量、肝脏损伤分级和是否多发伤与其预后相关。
辨析与释疑 作者要分析的是肝外伤手术预后影响因素,而因变量(肝外伤手术预后)是二分类变量,即预后好与预后差,对于这类因变量为分类变量的问题,影响因素与因变量的关系多是非线性的,应用多重线性回归是不合适的。此时,我们多采用回归模型分析。
回归模型属非线性概率回归模型中的一种,主要适用于因变量为分类变量的回归分析,根据研究设计的类型可划分为条件与非条件回归,条件回归模型多适用于配对设计资料如病例—对照研究,非条件回归模型多用于成组或非配对设计研究。
而该作者采用的多重线性回归多用于研究因变量与自变量的线性依从关系,要求资料满足线性、独立、正态和等方差4个条件,只有满足上述4个前提条件时才可以选择线性回归进行分析。
此外,本例中出血量、血红蛋白水平、肝脏受损伤程度等变量可能存在多重共线性。进行回归分析时,自变量间存在多重共线性会导致模型参数估计不稳定或不易解释。对此可通过删除误差大、缺失数据多的变量,或采用主成分回归分析、岭回归分析等方法进行解决。
2.2 对生存资料误用回归
为探讨乙型肝炎病毒(HBV)相关性肝病肝移植术后患者生存率的影响因素,某研究在术前收集了75例HBV相关性肝病患者的一般资料和已开展治疗情况资料,在术后半年每月1次、术后半年到1年每2个月一次、术后1年后每3~6个月一次,对患者进行随访,收集患者的存活情况、血常规、肝功能、肾功能、血他克莫司血药浓度、乙型病毒性肝炎标志物、HBV-脱氧核糖酸(DNA)定量、肝胆胰B超、肿瘤标志物、X线胸片和术后并发症等资料。原作者采用回归分析探索患者术后生存率的影响因素,将收集到的变量纳入单因素分析,单因素分析有统计学意义的变量进一步纳入多因素分析,结果显示术前人工肝治疗、抗病毒治疗和术后并发症对患者术后长期生存率有影响。
辨析与释疑 作者的研究目的是探索肝移植术后患者生存率的影响因素,研究设计为随访研究,获得的资料不仅包括终点事件(是否存活),还包括终点事件发生的事件长短(生存时间),这样的资料叫做生存资料。对于生存资料一般采用生存分析进行分析,单因素的组间比较采用Log-rank检验或检验;多因素分析最常用的方法是Cox比例风险模型(Cox模型)。回归适用的资料类型2.1所述。
参考文献
[1] Fang JQ. for [M]. : , 2007: 1-343.
方积乾, 生物医学统计的统计方法[M]. 北京:高等教育出版社,2007: 1-343.
[2] Fang JQ, Sun ZQ. [M]. 6th Ed. : ’s , 2008:206-383.
方积乾, 孙振球. 卫生统计学[M]. 6版.北京.人民卫生出版社,2008: 206-383
[3] Hu LP. of and [M]. : 's , 2011:1-562.
胡良平. 正确实施科研设计与统计分析 [M]. 北京:人民军医出版社, 2011:1-562.