当前位置:太平洋健康网>要闻>正文

实在国际大数据分析系列重复丈量材料的统计分析

  
2019-12-13 07:36:59  阅读:5341 作者:天鹏科技

原标题:实在国际大数据剖析系列|重复丈量材料的计算剖析

重复丈量是指对同一调查目标(受试者、患者、动物等)的同一调查目标在不一起刻点上进行屡次丈量(≥3),所取得的丈量成果构成的材料成为重复丈量材料。因为屡次丈量之间或许存在相关性,一般的方差剖析或许线性/广义线性模型都无法处理这类数据,需求用特别的计算剖析办法来进行剖析。

重复丈量材料的相关类型有哪些?

首要有:

  • 独立(Independent),即无相关联系。相关矩阵主对角线上的元素为1,非主对角线上的元素为0,它表明不一起刻点上的丈量值之间互相独立,无相关联系;
  • 等相关(Exchangeable),也称为可交换相关。相关矩阵主对角线上的元素为1,非主对角线上的元素为r,它表明不一起刻点上的丈量值之间互相不独立,存在必定的相关联系;
  • 相邻相关(Stationary 1-dependence),相关矩阵主对角线上的元素为1,相邻的两次观测之间存在相关性,其他方位元素为0;
  • 自相关(Autocorrelation),相关矩阵主对角线上的元素为1,相邻的两次观测之间的相关性存在时刻依从性;
  • 无确认相关(Unstructured correlation),其相关结构无规律可循。

1. 重复丈量数据的结构及特色

1) 接连型(计量)数据(Wide format)

①Group: A,B分别为不同的组别;②Yt1,Yt2…Ytj为j个不同调查时点Y的取值;表格的数据类型为“事务数据(宽格局数据:每个人只要一行数据)”。

2)分类型(计数)数据(Long format)

Time: 1~3分别为实验的不一起点, X1 -XP: 为与调查目标有关的一些可疑要素;Y为观测目标;表格中的数据为“人时数据(长格局数据:每个人能够有多行数)”。

一般来说,受试者的丈量值随时刻的变异(variation)要小于不同受试者目标之间的变异,也便是受试者内部的数据的相关性(不一起刻点的丈量值)比受试者之间的数据相关性更强。因而,受试者两个丈量之间内部的相关性一般更大。

  • 方差-协方差矩阵的球形(Sphericity)查验

球形(Sphericity)查验是对重复丈量规划的一种重要假定。能够看作是方差齐性假定在重复变量(时刻或空间)上的延伸。一般能够运用协方差矩阵来查验球形假定。在进行重复丈量方差剖析的时分,除需满意一般方差剖析的条件外,还必须进行球形假定查验。

假如在运用重复丈量方差剖析过程中,发现不满意球对称查验的状况,怎么办?

一般有两种办法来处理:

办法 1:对自由度进行校对(Greenhouse-Geisser correction and Huynh-Feldt correction)

办法2:运用多变量方差剖析(MANOVA)

*大部分计算软件以及程序在进行重复丈量的方差剖析时都会给出这两个办法的成果。

2. 重复丈量材料计算剖析办法的挑选:

依据反应变量的数据类型以及数据结构(丈量时刻是否固定,有无缺失值)挑选计算剖析办法:

搜图

修改

考虑1:重复丈量方差剖析、LMM、GEE与GLMM的差异?

①重复丈量方差剖析:能够认为是一般线性模型(General Linear Models,LM),它优势在于简略,概念易懂,可是选用这种计算剖析办法,有许多的假定(包括平衡规划、无缺失值、反应变量等相关),在十分有限的实验状况下很难满意。

②线性混合效应模型(Liner Mixed-effect Models,LMM):是LM针对计算材料的非独立性而发展起来的。

广义线性模型(Generalized Linear Models,GLM):是一般线性模型的直接推行,它使因变量的整体均值经过一个非线性衔接函数而依赖于线性猜测值,答应反应变量的概率散布为指数散布族中的任何一员。GEE和GLMM是在GLM的基础上发展起来的,常用于剖析存在相关性数据(重复丈量数据/纵向研讨数据)。

③广义估量(Generalized Estimating Equations,GEE):选用GEE模型剖析,需求指定“作业矩阵”(表明反应变量各次重复丈量值间的相关性),假如挑选不妥引起的丢失很少,挑选正确,能进步查验效能。GEE首要考虑模型的固定效应,对随机效应模型的考虑不行,不能对反应变量为等级变量做多元化的剖析,此刻选用GLMM模型做多元化的剖析更合理、精确。

④广义线性混合模型(Generalized Linear Mixed Model,GLMM):相当于在GLM模型的基础上,引入了随机效应来解说数据间的相关性。GLMM模型能够认为是GLM(一起包括固定效应和随机效应)和LMM(反应变量非正态散布)的拓宽。

搜图

修改

注:线性混合模型(LMM)亦称多水平模型(Multilevel, MLM)、随机系数模型(Random Coefficients, RCM)及分层线性模型(Hierarchical Linear Model, HLM).

考虑2:重复丈量与纵向研讨的差异?

重复丈量数据中,受试者的因变量被丈量了不止一次。一般,有一些自变量会跟着每次丈量而改变;在纵向研讨数据中,因变量是每个受试者分别在几个时刻点上丈量,并且一般是在一段相对较长的时刻内。

重复丈量跟着时刻进行重复的时分,较难与纵向数据进行区别,但它不只限于时刻上的重复,也能够是空间上的重复(如右膝进行选用对照药物,左膝选用实验药物);而纵向研讨大多数都是随时刻重复的,考虑时刻次序的重复丈量数据又称为纵向数据。

责任修改: