 |
| 医学研究中的统计方法错误使用 |
统计学的内容非常丰富,医学统计的方法很多,每种方法都有其适用条件,每种方法各适用于不同的实验设计类型。我国医学论文统计方法的使用率,自 1985 年后呈上升趋势,但医学杂志发表的论文存在不同程度的统计错误,统计方法的应用错误会使整个精确进行的研究得出错误的结论。为了减少这一现象,提高论文水平,以下对医学科研论文中统计方法方面经常出现的的问题归纳整理,列举如下:
一、未使用必要的统计分析方法或仅用统计描述
一些文章没有进行必要的统计分析,或者仅对研究结果的均数、率从样本大小进行比较。
二、没有写清所用统计方法的具体名称或根本不写
论文中应将所用统计方法交待清楚,如果交待不清或根本不予交待,则审稿者或读者对论文结论的正确与否将无法判断。配对设计与成组设计数据的统计方法就不同,如果只说用了 t 检验,则很难判断其正确性;有的文章中只提一句“经统计学处理”后,就写出结论;有的甚至干脆不提“统计”二字,直接用 P 值说明问题了事。
三、资料严重偏态却使用 t 检验或方差分析
t 检验和方差分析要求数据服从正态分布,而且方差齐,医学研究中大量的数据并不服从正态分布。当分布偏离正态分布不大时,对其结果的影响不大。但对于计量数据还是应当先做正态性检验,如果正态性检验结果认为数据不服从正态分布,可以进行变量变换,或进行非参数统计。有时从论文中的数据可以看出其资料严重偏离了正态分布,但仍然使用 t 检验或方差分析。因为医学研究数据不可能是负数,当样本不太小时,平均数减 3 个标准差不应是负数,否则就偏离了正态分布规律。
四、 t 检验代替方差分析进行多组间的比较
这种现象还不少见,在统计学上多组计量资料的比较时,应当先做总的检验 ( 各组间方差齐用方差分析,方差不齐需用非参数统计方法来处理 ) ,在得出差别有统计学意义的基础上,再做多重比较,如每两组均数都做比较的 Student-Newmn-Keuls 法,或多个处理组与同一个对照组比较的 Dunnett 法,以及比较 k 组中某一对或某几对在专业上有特殊意义的均数的 LSD 法等。文章中常见错误是将资料拆开,对各种组合下的两两均数分别做成组设计两样本比较的 t 检验或配对 t 检验,且每次比较的检验水准仍然为 =0 . 05 ,这样就会增大犯错误的概率,将本来无统计学意义的差异误判为有统计学意义。
五、成组 t 检验代替配对 t 检验
随机化分组是保证非处理因素均衡一致的重要手段,增加实验组与对照组间的可比性。配对设计的目的也是减少混杂因素对处理因素的影响,它比成组设计非处理因素更加均衡一致,二者关键是实验设计方案不同,分析目的不同,其统计方法也不同。
六、区组设计的方差分析代替重复测量设计的方差分析
重复测量设计看似随机区组设计,但与其不同的是试验结果按时间顺序排列,不像随机区组设计的处理那样经过随机排列,其不同时间之间是相关的、不独立的,不但可以分析两因素各水平间是否有差别,还可分析两因素有无交互作用。
七、单向有序变量做检验
临床上当疗效或检验结果分成多个等级,如疗效分为痊愈、显效、进步、无效 4 个等级,则 Person 检验只能检验各组构成是否相同,而不能检验各组疗效是否有差别。
八、误用检验公式
检验中的公式较多,各有其适用条件,稍有不慎,即有误用的可能,应根据实验设计和资料的性质进行正确选择。常见的失误有:
- 普通四格表资料,当 n>4O ,但有 1<T<5 时,没有计算校正 Y 值。
- 普通四格表资料,当 n<4O ,或有 T<1 时,仍然用检验,没有选用四格表确切概率法。
- R × C 表资料,有理论数 T<1 的格,或 1<T<5 的格数超过总格数的 1 / 5 ,没有采用适当的处理方法,而直接套用 R × C 表检验的公式,导致分析的偏性。
- 配对四格表资料整理为普通四格表,二者设计方案不同, a 、 b 、 c 、 d 的意义不同,分析目的和方法也不同。
九、直线相关与直线回归分析中的问题
进行直线相关与回归分析时,得出回归方程式或算出了 r 值,得出结论前,应先做假设检验,用以推断变量间是否存在直线性的依存关系或相关关系,至于相关的密切程度还要看 r 绝对值的大小,因为 r 的假设检验,无论 P 值多么小,只能说明变量间是否相关,而不能提供相关密切程度的信息。 r 绝对值越接近变量间的相关关系越密切。称为决定系数,表示回归平方和占总平方和的比例,当变量间有相关关系,但不是很大时,提示变量间的相关关系实际意义不大,有些科研工作者对此缺乏了解,在论文中曾发现 r 值为 0 . 126 , P<0 . O1 ,决定系数 =1 . 59 ,而未引起研究者对其实际意义的关心。还有的用直线相关代替曲线相关,用直线相关代替等级相关,应变量为二分类变量却使用线性回归。
十、多因素分析中的问题
随着计算机的普及,多因素分析已日益广泛地应用于医学研究之中。医学研究中所应用的多因素分析有多元线性回归、 Logistic 回归、 Cox 比例风险模型、判别分析、聚类分析、主成分和因子分析、典型相关分析、对应分析、多维标度法、 Poisson 回归分析等。由于这些分析的复杂性,有些研究者对分析中的准则不十分熟悉,缺乏统计学原理的基本知识,对选用哪些数据,应用哪些计算以及怎样解释所得结果等,单靠计算机不可能圆满地全部完成。因为缺乏统计学基本知识,机械使用统计软件,导致拿着计算机给出的结果不知道是什么意思。在进行统计计算时,常常需要灵活地应用统计软件,这就需要对软件的计算方法有较深入的了解。人们在处理“多因素多指标统计资料”方面最常犯的错误是:
- 多元 ( 或多因素 ) 资料用一元 ( 或单因素 ) 统计分析方法处理:这样会导致资料的利用率低,不能反映资料的整体情况,不能很好地揭示变量之间的交互作用和内在联系,容易得出片面的、甚至歪曲事实的结论。
- 多因素分析方法的选择错误:对于多因素分析我国医学论文中使用最多的是多元回归,常用的多元回归方法有多元线性回归、 Logistic 回归和 Cox 回归,它们是按照应变量的类型来分类的,其应变量分别为连续型变量、分类变量和生存时间。如果资料中有多个观测指标,但它们之间没有自变量和应变量之分,研究变量之间的远近关系时,可选用变量聚类分析;根据变量之间的关系,想把受试对象进行分类时,可选用样品聚类分析;要降低变量的维数,用少数几个综合变量表达众多原变量所反映的绝大部分信息时,需选用主成分分析或因子分析;将变量和样品同时反映在一个直角坐标系时,应选用对应分析。当资料中有分类变量,还有一系列定量的观测指标,若只想比较分类变量不同水平的多个在专业上有一定联系的定量指标的均数之间的差别是否有统计学意义时,可以用多元方差分析;若分类变量代表的是几个明确分类的总体,希望建立一种方法,对未知个体进行归属判断时,应选用判别分析;若在做多元方差分析时,发现还有一个或多个定量的影响因素,希望将其影响扣除后再做多元方差分析,此时,应选用多元协方差分析。
- 自变量有共线性用多元线性回归和多元 Logistic 回归:共线性是指自变量之间有相关性,严重的共线性会使回归方程不稳定,如使自变量的作用与实际相反,有统计意义的自变量变为没有统计意义等。对于多元 ( 或多因素 ) 资料,有很多文章用单因素分析方法筛选自变量,然后又建立了多元回归方程。其实,多因素分析本身就可以筛选自变量,用单因素分析筛选自变量是错误的,只用单因素分析更不可取。事实上,人们常面对的是多因素的复杂统计资料,不存在某一种统计方法能利用全部的数据,回答专业上期待解决的全部问题。这就需要结合专业和统计学知识,选择不同的变量子集,进行各种相应的统计分析,使专业知识和统计知识密切结合,对结果做出合理的分析与解释。
综上所述,医学科研论文中存在的统计学失误,大部分不是深奥的数学问题,相当部分甚至是统计学基础知识。只要我们加强医学统计学学习,打下坚实的统计学基础,就能减少统计学上的失误,使那些存在统计问题的文章从我国的医学期刊中消失,论文撰写更符合科学性和严谨性要求。 |