1、1临床研究资料常用统计分析方法临床研究资料常用统计分析方法2统计数据分析是一门综合技术,统计数据分析是一门综合技术,也是一门高超的艺术!也是一门高超的艺术!医学专业知识医学专业知识医学统计学理论知识医学统计学理论知识计算机统计软件技术计算机统计软件技术3学习了统计学理论知识,并不代表已经有学习了统计学理论知识,并不代表已经有能力进行统计数据分析。要不断进行实践。能力进行统计数据分析。要不断进行实践。实际科研工作中的实际科研工作中的“原型原型”资料与教科书上资料与教科书上的的“标准型标准型”例子有一定差距。例子有一定差距。应用统计软件进行计算分析应用统计软件进行计算分析
2、一定要有正确的一定要有正确的综合的统计理论方法的后台背景指导。综合的统计理论方法的后台背景指导。不但要注重对统计方法的选择,而且要注重不但要注重对统计方法的选择,而且要注重对分析结果的解释。对分析结果的解释。4一、概述一、概述二、原始数据的录入二、原始数据的录入三、数据处理的几个基本问题三、数据处理的几个基本问题四、统计方法选择的基本思路四、统计方法选择的基本思路五、统计分析结果的表述五、统计分析结果的表述5医学统医学统计计学学研究研究设计设计数据数据处理处理观察性研究观察性研究实验性研究实验性研究统计描述统计描述统计推断统计推断假设检验假设检验参
4、试验诊断试验疾病防治疾病防治病因病因疾病预后疾病预后8实验设计实验设计基本原则基本原则随机化、盲法随机化、盲法对对照照重重复复(样本含量样本含量)形式形式原则:原则:专设、同步、均衡专设、同步、均衡11--、、自身处理前后自身处理前后平行:平行:无治疗无治疗安慰剂安慰剂阳性治疗阳性治疗不同剂量不同剂量9统计描述统计描述资料资料类型类型数学数学连续型连续型(计量计量)离散型:计数离散型:计数计量:脉搏次数计量:脉搏次数/分分统计统计等级等级(有序分类有序分类)计量计量计数计数(无序分类无序分类)定比定比(0表示无,如体重表
5、示无,如体重kg)定距定距(0不表示无,如温度不表示无,如温度0C)10统计描述统计描述统计表统计表制表原则制表原则制表要求制表要求简单明了简单明了主辞在左、宾辞在右主辞在左、宾辞在右一张表表达一个中心内容一张表表达一个中心内容备注备注数字数字线条线条标目标目标题标题11统计描述统计描述统计图统计图制图原则制图原则制图要求制图要求连续型资料连续型资料(计量计量)离散型资料离散型资料(计数、计量计数、计量)图例图例刻度刻度纵轴、横轴纵轴、横轴标目标目标题标题条图、圆图、百分比条图条图、圆图、百分比条图线图、直方图、散点图线图、直方图、散点图
6、12统计描述统计描述SQR统计统计指标指标计量资料计量资料(单变量单变量)中心中心位置位置正态:正态:MX、非正态:非正态:GXM对数正态:对数正态:离散离散程度程度个体值个体值样本均数:样本均数:正态正态非正态非正态:XS量纲相同量纲相同:CV量纲不同量纲不同:计量资料计量资料(双变量双变量)偏度:偏度:g1峰度:峰度:g213统计描述统计描述统计统计指标指标计量资料计量资料(单变量单变量)计量资料计量资料(双变量双变量)离散程度:离散程度:r、brbSS、14统计描述统计描述中心位置:均数向量中心位置:均数向量
8、单侧:单侧:x100xppxp或或x100p17统计推断统计推断区间区间估计估计参数参数估计估计点估计点估计2211ppXX22ggSSSSbrpX、双侧:双侧:单侧:单侧:X,2/StXX,StX或或X,StX双侧:双侧:单侧:单侧:p2/SuppSup或或pSupRR(OR):2MH2/u1)OR(RR18统计推断统计推断假设假设检验检验步骤步骤1.进行检验假设进行检验假设假设样本来自某一特定总体假设样本来自某一特定总体2.确定检验水准确定检验水准确定最大允许误差确定最大允许误差3.选定检验方法计算检验统计量选定检
10、支配因素:因子分析假设假设检验检验方法方法20统计分析软件统计分析软件SPSS(有人称“鼠标软件”有人称“鼠标软件”)SAS(StatisticalAnalysisSystem)StataR(方法新、提供源程序、免费方法新、提供源程序、免费)21SPSS软件软件StatisticalPackageforSocialScience(社会科学统计软件包社会科学统计软件包)后改名为后改名为:StatisticalProductandServiceSolutions(统计产品与服务解决方案统计产品与服务解决方案)现现改名为改名为PASWPr
11、edictiveAnalyticsSoftware预测分析软件预测分析软件22一、概述一、概述二、原始数据的录入二、原始数据的录入三、数据处理的几个基本问题三、数据处理的几个基本问题四、统计方法选择的基本思路四、统计方法选择的基本思路五、统计分析结果的表述五、统计分析结果的表述23原始数据的记录形式原始数据的记录形式肾衰病人预后研究的临床资料记录肾衰病人预后研究的临床资料记录病人编病人编号号病案号病案号性性别别年年龄龄生理评生理评分分肾毒肾毒性性黄黄疸疸昏昏迷迷肌酐肌酐胆固胆固醇醇肾功能预肾功能预后后1004757男男2614无无有有
12、无无520治愈治愈2007950女女3113无无无无无无5234.5治愈治愈3011093男男5517无无无无无无2093.3治愈治愈4017555男男259无无无无无无13034.1治愈治愈274279183女女8815有有无无无无3316.1丧失丧失行:观察单位行:观察单位列:变量列:变量24肾衰病人预后研究的临床资料记录肾衰病人预后研究的临床资料记录病人病人编号编号病案号病案号性别性别年龄年龄生理生理评分评分肾毒肾毒性性黄疸黄疸昏迷昏迷肌酐肌酐胆固胆固醇醇肾功能肾功
13、能预后预后1004757男男2614无无有有无无520治愈治愈2007950女女3113无无无无无无5234.5治愈治愈3011093男男5517无无无无无无2093.3治愈治愈4017555男男259无无无无无无13034.1治愈治愈274279183女女8815有有无无无无3316.1丧失丧失标识变量标识变量分析变量分析变量25肾衰病人预后研究的临床资料记录肾衰病人预后研究的临床资料记录病人病人编号编号病案号病案号性别性别年龄年龄生理生理评分评分肾毒肾毒性性黄疸
14、黄疸昏迷昏迷肌酐肌酐胆固胆固醇醇肾功能肾功能预后预后1004757男男2614无无有有无无520治愈治愈2007950女女3113无无无无无无5234.5治愈治愈3011093男男5517无无无无无无2093.3治愈治愈4017555男男259无无无无无无13034.1治愈治愈274279183女女8815有有无无无无3316.1丧失丧失标识变量标识变量分析变量分析变量自变量自变量(解释变量解释变量)反应变量反应变量26原始数据的录入原始数据的录入文件类型:文件类型
15、:数据库文件:数据库文件:EpiDataExcel文件:文件:Excel统计软件数据文件:统计软件数据文件:SPSS(PASW)、SAS、Stata变量名及标签:变量名及标签:变量值及标签:变量值及标签:名义变量值的量化:名义变量值的量化:有序、无序分类资料有序、无序分类资料27高血压患者治疗前后的舒张压高血压患者治疗前后的舒张压(mmHg)处理组处理组对照组对照组顺序号顺序号治疗前治疗前治疗后治疗后顺序号顺序号治疗前治疗前治疗后治疗后113011411118124212411012132122313612613134132
16、4128116141149651221021511812461181001612811871169817118116813812218132122912610819120124101241062013412828数据编辑窗口数据编辑窗口数据窗数据窗标题栏标题栏菜单栏菜单栏工具按钮栏工具按钮栏数据单元格显示数据单元格显示数据文件建立原则数据文件建立原则一个观测占一行一个观测占一行一个变量占一列一个变量占一列2729变变量量度度量量类类型型变变量量名名变变量量类类型型变变量量宽宽度度
17、保保留留小小数数位位数数变变量量名名标标签签变变量量值值标标签签缺缺失失值值显显示示数数据据列列宽宽数数据据对对齐齐方方式式数据编辑窗口数据编辑窗口变量窗变量窗2830定量变量定量变量Scale等级变量等级变量Ordinal名义变量名义变量Nominal2931标准数值型标准数值型科学记数法科学记数法圆点数值型圆点数值型逗号数值型逗号数值型日日期期型型带美元符号数值型带美元符号数值型自自定定义义字字符符型型3032名义变量的哑变量化名义变量的哑变量化原资料原资料姓名姓名性别性别X1年年龄龄X2疗法疗法X3张三张
18、三150中西医中西医李四李四120西医西医王五王五018中医中医刘六刘六070中医中医赵七赵七135中西医中西医孙八孙八029西医西医哑变量化哑变量化姓名姓名X1X2X31X32张三张三15001李四李四12010王五王五01800刘六刘六07000赵七赵七13501孙八孙八02910001001XX3231医医中中中西医中西医医医西西法法疗疗33一、概述一、概述二、原始数据的录入二、原始数据的录入三、数据处理的几个基本问题三、数据处理的几个基本问题四、统计方
19、法选择的基本思路四、统计方法选择的基本思路五、统计分析结果的表述五、统计分析结果的表述34数据的净化数据的净化逻辑检查逻辑检查计算检查计算检查离群数据的处理离群数据的处理离群值离群值(outliner)与与P25或或P75的距离为的距离为“四分位数间距四分位数间距”的的1.53.0倍。倍。极端值极端值(extremevalue)与与P25或或P75的距离的距离为为“四分位数间距四分位数间距”的的3.0倍以上。倍以上。剔除离群或极端值要予以合理解释。剔除离群或极端值要予以合理解释。35数据质量有问题,数据质量有问题,使用的统计方法越高级,使用的统计方法越高级,欺骗性
20、越大欺骗性越大!!36一、概述一、概述二、原始数据的录入二、原始数据的录入三、数据处理的几个基本问题三、数据处理的几个基本问题四、统计方法选择的基本思路四、统计方法选择的基本思路五、统计分析结果的表述五、统计分析结果的表述37设计类型:设计类型:完全随机、随机区组、拉丁方、完全随机、随机区组、拉丁方、交叉、析因、正交、嵌套、裂区设计交叉、析因、正交、嵌套、裂区设计处理因素:处理因素:单因素、双因素、多因素单因素、双因素、多因素水平:水平:单水平、两水平、多水平单水平、两水平、多水平处理效应:处理效应:单变量、双变量、多变量单变量、双变量、多变量资料类型:资料类型:计
22、20120190125100160二个处理因素,观测指标为单变量。二个处理因素,观测指标为单变量。39一个处理因素,观测指标为三个变量。一个处理因素,观测指标为三个变量。三组三组慢性胃炎儿童外周血慢性胃炎儿童外周血T细胞百分比细胞百分比()治疗治疗组组治疗治疗组组对照组对照组编编号号T3T4T8编编号号T3T4T8编编号号T3T4T8163.630.231.2153.422.525.0172.442.529.9260.030.033.4246.520.014.6275.049.529.336
24、从正态分布差值服从正态分布成对成对tt检验检验可信区间法可信区间法差值不服从正态分布差值不服从正态分布Wilcoxon符号秩检验符号秩检验(一一)单变量计量资料单变量计量资料(1-)可信区间不可信区间不包括包括d=0,PT1Pearson2检验检验(Yates校正公式校正公式)N40或或T1Fisher确切概率法确切概率法(2)配对设计配对设计McNemar2检验检验Logistic回归分析回归分析56两种疗法降低颅内压有效率的比较两种疗法降低颅内压有效率的比较组组别别有有效效无无效效合合计计有效率有效率(%)试验
25、组试验组99(90.48)5(13.52)10495.20对照组对照组75(83.52)21(12.48)9678.13合合计计1742620087.00Y(疗效疗效)=1有效有效0无效无效X1(疗法疗法)=1新疗法新疗法0传统疗法传统疗法组别组别疗效疗效频数频数119910501750021数据输数据输入格式入格式57饮酒与食道癌关系的病例对照研究饮酒与食道癌关系的病例对照研究(按吸烟分层按吸烟分层)吸烟组吸烟组不吸烟组不吸烟组饮酒史饮酒史病例病例对照对照合计合计病例病例对照对照合计
26、合计饮饮酒酒69191260102190292不饮酒不饮酒925726620138158合合计计784485261223284503.病例对照研究成组资料分层分析病例对照研究成组资料分层分析(二二)计数资料计数资料58(1)检验病例组与对照组有暴露史检验病例组与对照组有暴露史(饮酒饮酒)的比例的比例是否有差异是否有差异:分层分层Pearson2检验检验(2)剔除混杂因素剔除混杂因素(吸烟吸烟)影响后分析饮酒与食管影响后分析饮酒与食管癌关联癌关联:Mantel-Haenszel2检验检验(3)计算暴露与疾病的关联强度计算
30、:行变量与列变量有一般关联Cochran-Mantel-Haenszel2检验检验Pearson2检验检验(二二)计数资料计数资料64双向无序的双向无序的RC表资料表资料某地某地5801人的血型人的血型MN血型血型ABO血型血型MNMN合计合计O4314909021823A3884108001598B4955879502032AB13717932348合计合计1451166626845801651.配对设计配对设计Wilcoxon符号秩检验符号秩检验2.两组独立样本两组独立样本Wilcoxon两
32、线回归分析直线回归分析(四四)双变量计量资料双变量计量资料673.曲线回归分析(曲线回归分析(SPSS)33221010X)b(bX10221010XbXbXbbYCubic.6XlnbbYcLogarithmi.5eYGrowth.4bbYCompound.3XbXbbYQuadratic2.XbbYLinear.110三次模型三次模型对数模型对数模型生长模型生长模型复合模型复合模型二次模型二次模型线性模型线性模型683.曲线回归分析(曲线回归分析(SPSS)bXab010Xb0X)/b(be11YLogisticLogist
33、ic.11XbYPower.10X/bbYInverse.9ebYlExponentia.8eYSS.71110模型模型幂模型幂模型逆模型逆模型指数模型指数模型型模型型模型69jY4.协方差分析协方差分析比较带有协变量比较带有协变量(Xj)的各组均数的各组均数()间的差别间的差别协变量协变量Xj对对Yj有影响有影响分为完全随机设计与随机区组设计分为完全随机设计与随机区组设计三种饲料喂养猪的初始体重三种饲料喂养猪的初始体重(X,kg)与增重与增重(Y,kg)A饲料饲料B饲料饲料C饲料饲料X1Y1X2Y2X3Y31
34、585179722891383169024911165181002083127618952395128021103251001691221062710214841999301051790189432110nj88888813.75081.75018.62598.00025.37596.875)YX(jj、701.有应变量的多元分析有应变量的多元分析(五五)多变量资料多变量资料有应变量的多元分析数据类型有应变量的多元分析数据类型应变量应变量自自变变量量ca
35、seYX1X2X3X4Xm1Y1X11X12X13X14X1m2Y2X21X22X23X24X2m3Y3X31X32X33X34X3mnYnXn1Xn2Xn3Xn4Xnm711.有应变量的多元分析有应变量的多元分析Y为计量资料且服从正态分布为计量资料且服从正态分布自变量服从多元正态分布自变量服从多元正态分布多元线性回归或多元逐步回归分析多元线性回归或多元逐步回归分析(五五)多变量资料多变量资料kk22110XXXYj的意义为在其它自变量保持不变时,的意义为在其它自变量保持不变时,Xj增加或减少一个单位时增加或减
41、读者与同类研究进行比较或进行循证医学时采用或进行循证医学时采用Meta分析。分析。经常遇到经常遇到PASW软件计算结果中软件计算结果中P=0.000的的情况,这是由于情况,这是由于P值小于值小于0.0005或更小,因或更小,因保留保留3位小数四舍五入所致,在论文中可位小数四舍五入所致,在论文中可写为写为P0.0005。(一一)统计分析结果的表述与理解统计分析结果的表述与理解801.统计分析结果的正确表述统计分析结果的正确表述统计结论统计结论P,按按检验水准检验水准,拒绝拒绝H0,接受接受H1差别有统计学意义差别有统计学意义thedifferencewassta
42、tisticallysignificant.Wecoulddrawtheconclusionthat专业结论专业结论可以认为可以认为不同不同,高于高于(低于低于)。结论较肯定结论较肯定,因知犯第一类错误概率范围因知犯第一类错误概率范围。(一一)统计分析结果的表述与理解统计分析结果的表述与理解81统计结论统计结论P,按按检验水准检验水准,不拒绝不拒绝H0差别无统计学意义差别无统计学意义thedifferencewasnotstatisticallysignificant.专业结论专业结论还不能认为两总体均数或率不同还不能认为两总体均数或率不同。
43、结论不肯定结论不肯定,因不知犯第二类错误概率范因不知犯第二类错误概率范围围。不拒绝不拒绝H0不意味能证实不意味能证实H0是正确的是正确的(两两总体均数或率相同总体均数或率相同)。(一一)统计分析结果的表述与理解统计分析结果的表述与理解822.统计学结论与医学专业结论有分岐时统计学结论与医学专业结论有分岐时统计结论“有意义”,专业结论“无意义”,统计结论“有意义”,专业结论“无意义”,最终结论为无临床意义。最终结论为无临床意义。统计结论“无意义”,专业结论“有意义”统计结论“无意义”,专业结论“有意义”,可能原因:样本含量较小;可能原因:样本含量较小;试验误差较大;试验误差
44、较大;误用统计分析方法。误用统计分析方法。(一一)统计分析结果的表述与理解统计分析结果的表述与理解83体重体重均数均数标准差标准差最小值最小值最大值最大值对照组对照组疗前疗前68.918.79425299(111例例)疗后疗后68.958.79925199差值差值0.04500.9666-23前后比较前后比较t=0.4905P=0.6248试验组试验组疗前疗前68.977.78755592(114例例)疗后疗后68.727.86795395差值差值-0.19300.9855-34前后比较前后比较t=2
45、.0921P=0.0387两组差值比较两组差值比较t=1.1372P=0.2567统计学上有意义,但无临床意义实例统计学上有意义,但无临床意义实例84研究某药物对脑梗塞患者的作用,采用欧洲研究某药物对脑梗塞患者的作用,采用欧洲脑卒中评分脑卒中评分(ESS),试验组与对照组各,试验组与对照组各50例。例。试验组疗后比疗前试验组疗后比疗前ESS增加增加37.9029.75;对照组疗后比疗前对照组疗后比疗前ESS增加增加28.3727.91。两组差异无统计学意义两组差异无统计学意义(t=1.652,P=0.102)。试验组试验组ESS增加比对照组多增加比对照组多9.35分,
46、有临床分,有临床意义。意义。但目前的检验效能只有但目前的检验效能只有37.9,要达到,要达到90的的检验效能,估计各组需检验效能,估计各组需193例。例。统计学上无意义,但有临床意义实例统计学上无意义,但有临床意义实例85以随机对照临床试验为例以随机对照临床试验为例要定性描述研究的类型要定性描述研究的类型(探索性、验证性探索性、验证性研究;前瞻性、回顾性、横断面研究研究;前瞻性、回顾性、横断面研究)。清楚陈述研究目的及研究假设清楚陈述研究目的及研究假设(优效、非优效、非劣效或等效性检验劣效或等效性检验)。描述目标人群情况如人口、地理、医院性描述目标人群情况如人口、地理、医
47、院性质、是否转诊、诊断等。质、是否转诊、诊断等。明确诊断标准、入选标准与排除标准。明确诊断标准、入选标准与排除标准。确定样本量及确定理由。确定样本量及确定理由。(二二)科技论文中试验设计与统计分析表述科技论文中试验设计与统计分析表述86确定有临床意义的最小差值或比值。确定有临床意义的最小差值或比值。说明抽样或分组的具体方法、说明抽样或分组的具体方法、如何进行如何进行“随机分组”。“随机分组”。试验的实施与评价是否实行盲法及试验的实施与评价是否实行盲法及如何如何“盲”“盲”,试验和对照因素盲法效果的描述,试验和对照因素盲法效果的描述如如外观、剂量、用法、时程等。外观、剂量、
48、用法、时程等。实施者和实验过程可比性的说明如术者经实施者和实验过程可比性的说明如术者经验、个体化干预等。验、个体化干预等。(二二)科技论文中试验设计与统计分析表述科技论文中试验设计与统计分析表述87研究的单位如人、肿瘤、眼等。研究的单位如人、肿瘤、眼等。各组人口统计学及临床特征的基线水平的各组人口统计学及临床特征的基线水平的可比性与不同。可比性与不同。效果评价的效果评价的主要指标主要指标,主要指标的测量方,主要指标的测量方法与精确度。法与精确度。负性反应或事件的测量范围与方法。负性反应或事件的测量范围与方法。数据收集的方法与质量保证措施。数据收集的方法与质量保证措施。个
49、体观察终点与整体研究终点的定义。个体观察终点与整体研究终点的定义。(二二)科技论文中试验设计与统计分析表述科技论文中试验设计与统计分析表述88控制可能偏倚(如混杂变量)的努力。控制可能偏倚(如混杂变量)的努力。统计学分析使用的统计软件名称及版本。统计学分析使用的统计软件名称及版本。对主要指标拟行比较的统计学方法,对主对主要指标拟行比较的统计学方法,对主要指标拟行单侧还是双侧检验(单侧检验要指标拟行单侧还是双侧检验(单侧检验应说明理由),对主要指标进行检验的应说明理由),对主要指标进行检验的水平。水平。(二二)科技论文中试验设计与统计分析表述科技论文中试验设计与统计分析表述89信信忠实执行科学研究的规则忠实执行科学研究的规则忠实执行试验设计方案忠实执行试验设计方案忠实于研究数据忠实于研究数据达达正确的理解统计分析方法正确的理解统计分析方法正确的运用统计分析工具正确的运用统计分析工具正确的表达研究结果正确的表达研究结果雅雅规范数据管理过程规范数据管理过程规范统计分析过程规范统计分析过程规范统计分析报告规范统计分析报告90Thankyou!