Transcript 统计在医学期刊中的应用
医学科研和论文撰写中常用的 数据处理和统计分析方法 重庆市卫生信息中心 孙安龙 2012.10.24 目录 • 前言 • 医学统计方法的基本概念 • 常用医学统计方法的适用条件 • 医用期刊对医学统计学的要求 • 医学统计在期刊中的正确表达 • 医学科研论文中的常见的统计学问题 • 数据的正确书写 前言 • 卫生统计在医学期刊中占有非常重要的地 位。任何科研设计、实验研究都离不开统 计方法,而统计方法的正确与否直接影响 到论文的质量。 • 我们在编审稿件过程中,经常遇到统计学 方法使用不当等问题。 几个基本概念 • 变量:数值变量(定量变量)、分类变量 (定性变量):无序分类、有序分类(等 级/半定量) • 概率:随机事件、概率、频率与概率的关 系(样本含量大到总体时,频率就等于概 率) • 总体与样本:总体、样本、参数 数学上的分类 连续型资料(continuous data) : 计量资料 实数范围内任意取值 离散型资料(discrete data) 实数范围内只取整数值 计数资料 离散型计量资料 如:脉搏次数/分;人数/家庭;白细胞计数/L 连续型变量:即连续变化的变量,其取值是数轴上某一区间内的一切数 值,理论上它们是无限可分的。如身高、体重。 离散型变量:其取值是0,1,2等不连续的量,是数轴上有限或无限的可 数的值,两个数之间没有小数。如年新生儿数、月手术病人数、人的牙 齿数等。 不同类型资料转化举例(每分钟脉搏次数) 计量资料 计数资料 缓 75 脉( <60 ) 正常(60 ~ 100) 82 正常脉(60~100) 125 96 等级资料 异常(<60 或>100) 56 速 脉( >100 ) 变量转化只能由高级向低级转化,即从计量资料至等级资料至计数资料,但不 能做相反方向的转化。 提示: 在研究设计中,对于能测量的指标,尽可能设计为定量指标,尽 可能减少信息量的损失,并为分析过程中资料转化带来方便。 定性指标可转化为定量指标,但较粗糙 。 概率 :随机事件发生可能性大小的度量。 当n逐渐增大时,频率f/n始终在一个常数左右作微小摆动,称 该常数为随机事件A的 概率,记为: P(A) 只要观察单位数足够多,可将频率作为概率的估计值。 0 P 1, P=1 必然事件, P=0 不可能事件。 小概率事件: P 0.05,表示在一次实验或观察中该事件发生 的可能性很小。 小概率原理:小概率事件在一次实验或抽样中不可能发生, 如果发生就怀疑检验假设的正确性。 抽样方法 • 简单随机抽样:从总体抽取样品时,使每个个体被抽到的机 会均等,以使所抽取的样本数据能够很好地代表总体的抽样 方法。(简单/单纯):抽签法、随机数表法 • 系统随机抽样(间隔):将总体按某一标志(如时间)排序, 然后按一定间隔抽取样本单位。 • 分层随机抽样:将总体按产品的某些特征划分为若干层(即 小批),各层内分别用简单随机抽样法抽取一定数量的个体 组成一个样本的方法。分层按比例随机抽样。 • 整群抽样法:先将总体按某个标志分成若干群,然后随机地 抽取若干群,并由抽中的群中所有个体组成样本。 几种常见的分布 • 分类变量的分布类型 – 二项分布:观察单位具有互相对立的一种结果,观察 单位的观察结果相互独立(如:治愈/未治愈、传染/未 传染) – Poisson分布:二项分布的极限分布和特例,某事件发 生率非常小时(小概率事件),则事件发生数X所服从 的概率分布 – 超几何分布: • 数值变量的分布类型 – 正态分布 – Weibull分布 t检验、u检验 • 数值变量资料假设检验的最基本最简单的方法: t检验、u检验;仅 适用于两个样本均数的比较 • t检验的应用条件:样本含量较小(n<30)、正态分布总体的随机样 本、两总体方差齐 • u检验的应用条件:样本含量较大(n>30)或样本含量虽小但总体 标准差已知时样本均数与已知总体均数的比较及成组设计两大样本均 数的比较 • 应用 – 样本均数与已知总体均数 – 配对设计资料 – 成组设计资料两均数间 方差分析 • 方差分析的应用条件(多个样本均数的比较) – 各样本须是相互独立的随机样本 – 各样本均来自正态总体 – 相互比较的各样本所来自的总体其方差相等,即方差齐 • 方差分析应用 • • • • – – – – 两个或多个样本均数间的比较 分析两个或多个因素间的交互作用 回归方程的假设检验 方差齐性检验 完全随机设计资料:处理间变异+组内变异(误差) 配伍组设计资料:处理间变异+配伍组间变异+内变异(误差) 多个样本均数间的两两比较:q检验(SNK法) 多个实验组与一个对照组均数间的比较: q’检验(Dunnett t检验) 卡方检验 • 分类变量资料中的应用 • • • • • – 推断两个及两个以上总体率或构成比之间有无差别 – 两种属性、两种特征或两变量间相关关系是否存在 – 频数分布的拟合优度检验 四格表资料的卡方检验(n1+n2>40,各格T>5) RXC列联表的卡方检验(多个率及多组构成比) 配对资料的卡方检验 组内分组资料的卡方检验(逐级分组/K层组内分 组设计资料) Fisher精确概率检验法:一格T<1,n<40 非参数检验 • 适用条件 – – – – 等级顺序资料 偏态资料 未知分布类型的资料 要比较的各组资料变异度相差较大,其方差不齐,且不易变换达到齐 性 – 初步分析 – 特殊情况 • 配对设计差值的符号秩和检验 • 成组设计两样本比较的秩和检验:Wilcoxon秩和检验、 • • • Mann-Whitney秩和检验 成组设计多个样本比较的秩和检验:H检验法(KruskalWallis法) 多个样本间两两比较的秩和检验 配伍组设计多个样本比较的秩和检验 医学统计学方法 • 运用统计学的原理和方法研究医学领域中的生物、理化、社会、心理等 因素及机体的内外环境条件对人体健康的影响,认识人群健康和疾病现 象的数量特征。/医学统计学是运用概率论和数理统计的原理、方法紧密 结合医学实践,研究医药卫生领域中资料的收集、整理、分析和推断的 一门应用学科。 • 统计资料的收集与整理 • 统计描述性 – 常用统计指标:集中趋势(算术均数X、几何均数G、中位数M、众数等)与 离散趋势(标准差S、方差S2、变异系数CV、极差R、四分位数间距Q、平均 差A等);相对数(率、构成比、动态数列);相关系数r、回归系数b、半 数效量、半数致死量;相对危险性RR以及绝对数等 • 统计推论 – 分析资料:计算标准误进行参数估计,据资料的性质选择检验方式(t检验、 u检验、卡方检验、F检验、非参数检验、Ridit分析等) • 统计图与统计表 医学多元统计方法 • 医学现象复杂多变,如疾病的发生、病情的变化、转归、 预后等往往包含着众多因素的作用,为充分运用观察资料 的综合信息、分析其因果关系、内在联系的统计规律,作 出科学的符合实际的结论采用多因素分析的方法。 • 主要内容:多元线性回归、逐步回归、判别分析、聚类分 析、主成分分析、因子分析、典型相关分析、logistic与 Cox回归分析等 统计方法的适用条件 • 各种统计分析方法都有其适应条件,在选用统计方法时, • • 应严格把握,充分考虑所分析的资料是否符合其适用条件。 计量资料在计算均数或显著性检验时,其基本条件:正态 分布、方差齐性,若不符合则需要做相应的处理。计算集 中趋势指标可使用中位数或几何均数。做统计学检验可通 过数据转换使其成为正态分布,常用的转换方式有对数转 换、幂指数转换、平方根转换等,或者改非参数检验。 计数资料各种方法均有其自身的适应条件,如上列举的方 法其基本条件是某一事件概率不会太小,若发生概率太低, 则改用小概率事件显著性检验。 • 参数检验与非参数检验方法 – 计量资料、计数资料,属参数检验;等级资料方差不等时的两样本计量资料属非 参数检验。 统计方法的适用条件 • t检验: – 计量资料、单因素分析、样本含量较小、属正态分布 – 非正态公布,可采用t′检验或可采用数据变换的方法, 将资料变换为正态分布资料 – 根据研究的目的和专业知识选择进行单侧检验或双侧 检验 • F检验(方差分析):观察的对象为两组以上或多 • • 组、单因素分析 秩和检验:等级资料、方差不等时两样本计量资 料 卡方检验:计数资料、属二项分布 统计方法的适用条件 • 不同的资料类型和不同的研究目的采用不同的统计方法。按照资料的性 质测定指标的多少,确定资料是计数资料还是计量资料,应用单因素分 析还是多因素分析。 • 多因素资料是对每个研究对象测量的多个指标同时进行的综合分析。常 用的有回归分析;相关分析以及判别分析、聚类分析、主成分分析和因 子分析等。多因素分析多用于计量资料。 • 单因素分析应用较多,按获取资料的方法,分计数资料和计量资料。 – 计数资料:利用率或比的相应计算方法。 – 计数资料的显著性检验:样本率与总体率的比较用u检验;两个样本率的比 较可用u检验或四格表的x 检验,多个样本率的比较可用行乘列的卡方检验或 2XC表的卡方检验。 – 计量资料:对于显著性检验通常有T检验和F检验 – T检验是用于两个均数问的比较:分为样本均数和总体均数的比较,两个样 本均数差别的检验,配对资料的显著性检验。 – F检验用于多个样本均数的比较,分完全随机设计的方差分析、随机区组设 计的方差分析和组内分组资料的方差分析。 选用统计分析方法 • 不同的统计方法说明不同的问题,同样不同的问题要应用不同的统计方 • • • • • • • 法来分析和表达。研究者在做统计分析前,首先要明确资料分析的目的、 意图是什么,通过分析最终达到什么样的期望,临床工作者科研通常的 目的主要有: 某现象发生的频率或比例如人群中重复癌的发生率,采用频率指标,构 成指标或相对比,可计算发病、患病、感染、阳性频率或构成等。 某人群的特征值,如平均身高、体重、血压等,采用平均水平和变异的 统计指标。 临床正常值范围如血红蛋白、血糖、尿铅含量,多采用中位数法或平均 数法。 临床诊断方法效率评价,可分别计算各种诊断方法对某病诊断的准确度 和可靠度,如x线对肺癌的诊断。 临床疗效分析比较 如几种药物疗效的比较,视资料性质作显著性检验。 现象间关联情况分析如眼PSRT与屈光度的关系,用线形相关和回归分析。 人群的归类、评价,可选用判别分析、聚类分析、主成分分析等。 样本含量 • 统计学是对研究样本进行抽象归纳的科学,没有足够的样本量就不可 能得出正确的结论,而且统计方法也有其样本量的要求。 – 医学研究实际中,通常数值变量可少些,但至少>7例才有统计学意义, 一般要>30例(<30例称小样本),最好>100例;作为分类变量,样本数 量要大些,至少>30例,一般>100例;常见病、多发病最好为几百例。这 是经验要求,具体样本含量可根据公式进行推算。 – 四格表的卡方检验要求样本量大于40,方格中理论数大于5(n~>40,t>5), 若不符合则用校正卡方检验或精确概率法。行x列表的卡方检验要求理论 数均大于1且小于5者不超过表中数的1/5,若不符合则改用其它方法(合 理合并)。 – 正常值范围的确定:观察数量应尽可能多于100例;需分组者,各组人数 也是如此(标本来源困难时酌情减少)。若为偏态分布,应以百分位数计算, 则例数应≥120例。 混杂因素 • 任何一种现象的发生都不是单纯的,要受多种因素的影响。当 分析比较不同人群某现象的发生或存在状况时,要考虑除研究 因素以外比较组之间其它条件是否相同,内部构成是否一致, 其它因素对研究现象的影响如何。 • 混杂因素应在研究之前通过研究对象选择、设立对照、随机、 匹配、双盲法等控制,但如果事先没有良好设计,则通过统计 方法可以控制。若资料内部构成不同,存在混杂因素,简便方 法是分组比较或标化处理。若样本量不允许分组,则对计数资 料可用组内分组的卡方检验、卡方值分割法、加权卡方检验法 等,计量资料的比较可用协方差分析。 统计学的解释 • 资料的统计处理并非是研究工作的最终目的,而是通过统 计学分析为研究结论提供依据或线索,因此对统计资料做 统计分析后,要正确把握统计学术语,对结论做科学的分 析和解释。拒绝检验假设,习惯上称有显著性,不应误解 为差别很大或在医学上有很显著的价值,统计学亦不能回 答比较样本的总体一定相等或一定不相等,因为统计推断 是以一定的概率界值为依据,说明来自同一总体可能性的 大小。应用统计学分析的目的是通过研究样本推断总体, 如果研究结论不能适当外延,则该项研究毫无意义。 中国医药卫生期刊编排规范 • GB/T 7713-1987 科学技术报告、学位论文和学术论文的 编写格式 – 前言、方法、结果、讨论四部分 – 方法 描述研究对象(人或实验动物,包括对照组)的选择及其基本 情况,以及研究所采用的方法。临床试验研究还应说明试验程序是否 经所在单位或地区伦理学相关机构的批准,研究对象是否知情同意并 签署了知情同意书。 – 描述统计学方法及其选择依据,并说明所使用的统计学软件。 – 结果 结果的叙述应实事求是,简洁明了,数据准确,层次清楚,逻 辑严谨,不应与讨论内容相混淆。应着重总结重要的研究结果。以数 据反映结果时,不能只描述导数(例如百分数),应同时给出据以计 算导数的绝对数。一般应对所得数据进行统计学处理,并给出具体 的统计值。例如:F= 3.868,P=0.026。 中国医药卫生期刊编排规范 • • • • • • • • • • • 17.4 表 17.4.1 表应具有自明性。表的内容不应与正文文字及插图内容重复。 17.4.2 表应按统计学的制表原则设计,力求结构简洁。横、纵标目间应有逻辑上的主谓语关系,主语一般 置表的左侧,谓语一般置表的右侧。一般采用三横线表。 17.4.3 表应有序号和简明的表题,居中或齐左排印在表的上方,同一种期刊体例应一致。表序一律使用阿 拉伯数字依序编排。只有1幅表时应标注“表1”。表号与表题之间至少应留1个同类字符的空隙。 17.4.4 表中一般不设“备注”栏,若有需说明的事项,可在表内有关内容的右上角标出注释符号,在表格 底线的下方以相同的注释符号引出简练的文字注释。 17.4.5 表中各栏应标明标目词,参数栏的标目词一般为量或测试项目及其单位符号。若表中所有参数的单 位相同,单位可标注在表的右上方,或表题之后(加括号)。各栏参数的单位不同,则应将单位符号加括号 标注在各栏标目词后或下方,或在标目词与单位符号之间以逗号“,”隔开。 17.4.6 表中同一栏的数字必须按位次上下对齐。表中不用“同上”、“同左”、“〃”和类似词,一律填入 具体数字(包括“0”)或文字。若使用符号表示未测或未发现,应在表格底线的下方以简练文字注释。 17.4.7 表中的量、单位、符号、缩略语等必须与正文中所写一致。为保持表的自明性,对表中使用的缩略 语应予注释。 17.4.8 表应随正文,一般先见文字后见表。需要转页的表,应在续表的右上角或左上角注明“续表×”,并 重复排印表头。 17.4.9 表宽大于版心宽度时,可将表左转 90o排,以版心高度为图宽,双页码表顶向切口,单页码表顶向 订口。此类表最好占满或接近占满1页,以避免空白过多造成的版式不美观。 17.4.10 每幅表都应在正文中标明引用处。 中国医药卫生期刊编排规范 • • • • • • • • • • 17.3 图 17.3.1 图应有简短确切的题名,连同图序号置于图形下方。图序号一律用阿拉伯数字依序连续编排。 只有1幅图时应标注“图 1”。 17.3.2 图应具有自明性。图的内容不应与正文文字及表格内容重复。 17.3.3 曲线图大小、比例应适中,高度与宽度之比一般以5∶7左右为宜,线条均匀,主辅线分明。纵、 横标目的量和单位符号应齐全,置于纵、横坐标轴的外侧,一般可居中排列。横坐标标目的著录自左 至右;纵坐标标目的著录自下而上、顶左底右。右侧纵坐标标目的著录方式与左侧相同。 17.3.4 图中的量、单位、符号、缩略语等必须与正文中所写一致。为保持图的自明性,对图中使用的 缩略语应予注释。 17.3.5 图序、图题居中或齐左排印在图下方,图序与图题之间至少应留1个同类字符的空隙。图例可 置于图与图题之间,或图的空白处。中文版期刊图题、图例及图内其他文字说明可以只使用中文,也 可以中、英文对照,不宜仅使用英文。 17.3.6 照片图要求主要显示部分的轮廓清晰,层次分明,反差适中,无杂乱的背景。人体照片只需显 示必要部位,但应能看出是人体的哪一部分。颜面或全身照片,若不需显示眼部和阴部,应加遮盖。 使用特定染色方法的显微照片应标明染色方法。显微照片中使用的符号、箭头或字母等应该与背景有 很好的对比度。涉及尺寸的照片应附有表示目的物尺寸大小的标度。 17.3.7 图一般随正文,先见文字后见图;也可拼版制图后集中排列于正文的适当位置。拼版图应在图 内排印表示图序的角码,在图的下方依序排印图序、图题。需要印在插页上的插图,应在正文引用处 标明图所在插页页码,并在插页中图的上方标明文章的题名和所在页码。插页一般不编入正文连续页 码,另编插图插页连续页码。 17.3.8 图宽大于版心宽度而又无法缩小制版时,可将图左转 90o排,以版心高度为图宽,双页码图顶 向切口,单页码图顶向订口。此类图最好占满或接近占满1页,以避免空白过多造成的版式不美观。 17.3.9 每幅图都应在正文中标明引用处。 主要的物理化学性 质的参考催化剂 体积密度 孔径分布 正确的形式 • 此表无横向栏目,在 第1个测试项目右侧 包含3项内容,第3个 测试项目下包含着不 同的信息,隶属关系 混乱,整个表格使读 者不能一目了然。显 然,编辑并未对作者 的原稿进行加工 • GB/T7713—1987指出:“表格编排,• 正确的做法应将横向栏目与竖向栏目 一般是内容和测试项目由左至右横读, 数据依序竖排。” 既将研究项目作横 栏目,在科技期刊统计表中称为主项; 将观察指标作纵栏目,称宾项(也有称 为谓项的)。从具体内容看,横栏目可 • 以是受试对象或处理因素,纵栏目一般 为受试对象统计项目或处理因素的实验效 应 • 示例3和4中,其测试项目由上至下而 测试数据由左至右读,这恰恰与标准 规定相悖。 转换,这样,既符合国家标准规定, 又使隶属关系清楚,对比效果增强(见 示例5和6 从规范的意义讲,栏目名称所对应的 是竖向的,而不是横向的,如果可以 因强调某项而用另一项代替,则不符 合GB/T 7713—1987的规定。 • 在统计表中,主、宾项 的编排必须是主项在前, 宾项在后,横读是一句 话,竖读是比,绝不可 以主、宾项颠倒,见例 1(表1) • 表1的栏目编排符合GB/T 7713—1987的要求。主项(研究对 象)是不同性别的人(受试对象),宾项(观察指标)是年龄与体 质量指数(实验效应)。横读该表内容是2个完整的句子:1)男 性4O例,平均年龄32岁,体质量指数18.34;2)女性42例, 平均年龄34岁,体质量指数24.46。竖读是年龄与体质量指 数资料的比:1)男性与女性的平均年龄分别是32岁和34岁, 直观可见相差无几;2)男性和女性体质量指数分别为18.34 和24.46,似说明该年龄段的女性比男性肥胖。 • 统计表的主项与宾项 • 混杂的情况多种多样, 或主项中混杂宾项内 容,或宾项中混杂主 项内容,见例2(表2)。 表2横栏目内3个分组 是本研究的受试对象, 作为主项是对的,但 每组中的“治疗例数、 危险事件、死亡及心 源性死亡”则为实验 效应(是研究的观察 指标),属宾项内容, 应放在纵栏目中。 • 在纵栏目中因主、 • 宾项混杂,造成2种 方法不能直观比较。 该表不得不进行再 加工(见表3)。 分析编辑加工后的 表4,横读成句,竖 读方便比较,可谓 简洁、规范,具有 自明性。 统计学问题 • 排印格式按 GB/T33581982《统计 学名词及符 号》的有关 规定,统计 学符号一律 采用斜体排 印。 临床科研设计报告书基本内容 1.立题依据(research foundation) 2.研究目的(research objectives) 3.科研假设(research hypothesis):H0、H1。 4.设计方案(design): 探索、验证;试验、观察; 随机、非随机; 单盲、双盲、开放; 自身前后、平行对照; 前瞻、回顾、横断面。 5.研究地点(setting) 6.研究对象(participants) 目标人群、样本人群; 纳入标准、排除标准。 7.样本大小的确定(sample size estimation) α ;1-β;μ、π、σ;δ;单侧、双侧。 8.干预方法(intervention) 受试者的依从性。 9.研究因素(study factor) 主要、次要观测指标。 10.资料收集和分析 (data collection and analysis) 统计软件、统计方法。 11.预期结果(expected outcomes) 12.质量控制(quality control) 13.预试验(pilot study) 14.医学伦理道德(ethics) 15.管理和时间安排 (administration and time table) 16.经费预算(budget) 统计工作的基本步骤 统计工作一般分为三个阶段 1、收集资料:收集原始资料是统计工作最重要的一步,关 系着整个统计工作的质量 2、整理资料:对原始资料进行科学的分组归纳,使资料系 统化、条理化,便于计算统计指标和进行统计分析 3、分析资料 :计算有关指标,阐明事物的内在关系和规律。 收集资料 医学统计资料的来源主要有四个方面: 1)统计报表: 2)经常性工作记录: 3)专题调查或实验研究资料: 4)统计年鉴和统计数据专辑 统计报表:如传染病报表、职业病报表、 医院工作年报表等等,可全面经常地提供居 民健康状况和医疗卫生机构工作的主要数字, 为拟定卫生工作计划与措施、检查与总结工 作提供依据,也给科学研究提供基础资料。 报表应做到完整、准确、及时。 经常性工作记录:如医院的病历、各 种化验单、检测单,出生、死亡登记卡。 专题调查或实验研究资料:实验研究、 调查研究等,包括实验数据和现场调查资料。 实验数据指在实验过程中获得的数据,现场调 查资料来源于大规模的流行病学调查所获得的 资料。 整理资料 • 1. 检查和核对收集到的数据和资料 • 2、设计分组 – 1)质量分组 :将观察单位按某种属性或类别分组, 适用于计数资料。 – 2)数量分组 :将观察单位按变量值的大小分组,适 用于计量资料。 • 3、拟整理表:一种过渡性表格,可表达资料的 分配情况和内部结构,初步显示各项目间的联系 分析资料 统计分析 统计描述:指由统计指标、统计表、统 计图等方法,对资料的数量特征及分布 规律进行测定和描述,不涉及由样本推 论总体的问题。 统计推断:指如何抽样,以及如何由 样本信息推论总体特征。 医学科研论文中的常见的统计学问题 • 1. 文中未交待所用统计方法 • 2. 使用统计方法时不考虑其应用条件 • 3. 统计学的基本概念不清楚 • 4. 相关回归分析中的问题 • 5. 统计说法不严格 • 6. 数据统计的准确性 • 7. 统计表不规范 统计方法上常见的一些问题 • 计量资料,标准差大于均值,显示各变量 值离散程度大,呈偏态分布,不能采用 ±s这一算术均数法计算均数。经偏态转换 成近似正态分布资料后计算 • t检验和方差分析要求数据服从正态分布 • 误用t检验分析重复测量设计资料 • 顺序变量的χ 2 检验 • 相关与回归分析的r值和P值 数据的正确书写 • 文稿内各数据的书写必须前后一致;总数应等于各分组的 • • • • • 数据之和。 对不同指标,有其不同数据精度的要求,这应结合专业知 识加以判断。 测定数据的书写,不能超越其测量仪器测试的精确度范围。 同一指标的前后数据应保持同一精确度。 经计算,出现比预定小数点后两位数多的数字,应采取 “≤4舍、≥6入”与“5‘奇’进‘偶’出”方法,以决定 小数点后第三位数字是“舍”还是“入”,即5前为单数 则入,双数则舍。 未经统计检验,文稿内不宜出现推断性的比较结果的结论。 欲予以比较,也应注意两者的可比性。