论文部分内容阅读
随着现代科学技术的发展进步,流行病学、统计学的分析方法和计算工具(包括计算硬件和计算软件)得到不断的创新和广泛的应用,在医学科研工作中所起的作用越来越明显,甚至不可或缺。计算方法上,新的计算理论、成熟的计算模型不断面世和完善,如循证医学理论、Meta分析方法、Logistics回归模型等;计算手段方面,首推计算机及其软件技术,目前最著名的计算软件当数SAS和SPSS。SAS和SPSS被研制和推出后,一直作为世界上最流行、最具权威的计算分析软件,不断更新、不断升级。其优势在于将数据管理和数据分析融为一体,完成以数据为中心的数据交换、数据管理和数据分析,特别突出的是其数据分析功能,包括多种指标的计算、不同统计方法的分析、各类图表的制作,等等。由于SAS、SPSS的销售策略、全英文界面,特别是过于庞大的统计内容与分析功能,使得在广大医学科研工作者中推广、普及和广泛使用存在一定的困难。此外,一些常用的流行病学、统计学分析方法,如样本含量计算、秩和比、圆形分布、序贯检验、Delphi法、Meta分析等,在SAS和SPSS中没有现成的计算模块而需要额外编写程序,给应用者带来许多不便。Microsoft Excel是美国微软公司开发的Windows环境下的电子表格系统,属Office办公软件一员,是目前应用较为广泛的办公表格处理软件之一。它的特点是:与Office软件捆绑销售,应用极为广泛;与专业统计软件相比,操作更为简便;输入数据和计算结果可以同步显示,浏览更加直观;具有数据库管理、数据处理、图表制作等功能;中英文兼备,等等。目前,应用Excel完成流行病学资料的数据分析有越来越多的报道。如在国内,李永峰、郝永建等分析2001-2005年间某部队肺结核发病情况;Liang等分析2003年3月北京东城区SARS的流行病学特征;孙军红、杨春梅、刘莉、孙海龙描述部队传染性疾病发病情况;黄彩虹分析2004-2007年泉州市麻疹发病年龄特征;赵国等分析2006年平顶山市水痘疫情;刘太浩分析莱芜市脊髓灰质炎的变化趋势;陈青山等完成性病GM模型的预测和评价;李兴国预测广州军区部队人群病毒性肝炎的趋势;罗卫平分析新疆五县居民死因及潜在寿命损失;戴云洁等分析60岁以上老年住院病人死亡原因;方芳等分析广州市南沙区新型农村合作医疗住院病人疾病谱。在国外,Korochina等筛选患有疑似风湿性疾病特征的代谢综合症的病人;Tovar分析墨西哥1980-1997年间胃癌的发生状况;Mousavi等分析伊朗首都德黑兰妇女乳腺癌的病因;Ngoan分析越南2005~2006年内的癌症病人的死因谱。还有应用Excel分析疾病与相关因素的关系,如,口腔炎与饮用水质、黄斑病与营养状况、胃癌和直肠癌与环境因素、早产儿和先天性畸形与母亲甲状腺的大小等。就具体计算方法而言,Excel可以完成:①研究设计,如估计样本含量;②统计描述,如最大值、最小值、集中趋势、离散趋势等计算;③统计分析,包括应用数据分析工具实现的统计分析,如统计图表制作、曲线拟合、权重系数计算、剂量反应资料分析、时间序列因素分解、t-检验、u检验、方差分析、相关回归分析、多元回归分析、卡方检验、Spearman秩相关分析、傅立叶分析等,和编写程序实现的统计分析,如寿命表、圆形分布资料分析、通径分析、等效性检验、多重相关分析、生存分析、Meta分析、聚类分析(模糊聚类和R聚类)、灰色数列模型、序贯试验分析、判别分析、趋势预测、因子分析、Cox回归分析、Logistic回归分析。因此,有学者指出应用Excel可作为临床医学数据统计的一个新工具。本文的创新思路是,在通用Office平台上,借助于Excel计算函数和计算公式等,在充分考虑计算方法的具体过程时,对常用流行病学、统计学分析方法和某些高级分析方法编改、调试Excel计算程序,使广大流行病学、统计学科研工作者在数据分析过程中无须了解复杂的计算过程,应用时只要选择正确的分析方法,输入待分析的数据,就可以及时得到需要的分析结果,最终达到计算操作的界面模式化,运算的步骤简单化,分析的结果准确化,适应的对象大众化,特别解决SAS、SPSS软件应用范围局限,不便推广、普及的问题。换言喻之,用建筑材料厂生产的砖瓦、水泥(微软公司Excel提供的计算函数和公式),用砌砖法、浇注法,按广大用户的要求度身定做住房(用求和、引用等方法编写不同用途的Excel程序),所建住房较之豪宅、洋房更加经济、实用,适住人群更加广泛(Excel程序与SAS、SPSS相比,简单、直观、便于推广,与其它Excel程序相比通用性较强、可操作程度较高)。本文编制的Excel程序如下:1、资料统计描述的Excel编程:计算平均值、标准差、例数、最大值、最小值、极差、中位数、几何均数、偏度系数、峰度系数、ug1、ug2、正态检验D值、变异系数、P2.5、P25、P75、P97.5、95%的可信区间(95%C.I.L~95%C.I.U);将原始资料转换为频数表资料;绘制频数分布图。2、t检验的Excel编程:样本均数与总体均数的比较、配对样本均数的比较和两个独立样本均数的比较。3、方差分析的Excel编程:完全随机设计的方差分析、随机区组设计的方差分析。4、χ2检验的Excel编程:普通四格表、配对四格表、病例对照研究和队列研究的四格表、R×C行列表的统计分析。5、Ridit分析的Excel编程:两组或两组以上有序分类资料的Ridit分析。6、直线相关回归分析的Excel编程:直线相关分析、直线回归分析(Pearson相关回归)和Spearman秩相关分析。7、诊断试验评价的Excel编程:计算诊断试验的灵敏度、特异度、假阳性率、假阴性率、Youden指数、似然比、一致率、预测值,绘制ROC曲线。8、样本含量估计的Excel编程:包括抽样估计总体率的样本量、单个总体率假设检验的样本量、完全随机设计两总体率假设检验的样本量、配对设计总体率假设检验的样本量、抽样估计总体均数的样本量、配对设计单总体均数假设检验的样本量、完全随机设计两总体均数假设设检验的样本量、病例对照研究和队列研究的样本量。9、实验设计随机化分组的Excel编程:完全随机化设计的随机化分组、配对设计的随机化分组、配伍组设计的随机化分组。10、寿命表的Excel编程:现时简略寿命表、去死因寿命表、健康期望寿命表。11、灰色序列模型的Excel编程:1阶1个变量的微分方程模型,即GM(1,1)模型。12、Meta分析的Excel编程:对u、t、F、χ2、P值资料合并的Meta分析、对计数资料合并的Meta分析和对计量资料合并的Meta分析。本文结合实例,比较了上述Excel程序计算结果与SAS、SPSS、教科书或文献结果的差异。排除四舍五入之类因素的影响后,在统计描述的计算指标中,平均值、标准差、例数、最大值、最小值、极差、中位数、几何均数、偏度系数、峰度系数、ug1、ug2、正态检验D值、变异系数、P25、P75、95%的可信区间(95%C.I.L~95%C.I.U)的计算结果是一致的;t检验中t值、P值,方差分析中F值、P值、两两比较的结论是一致的;χ2检验(包括直接χ2检验、校正χ2检验和直接概率计算法)的χ2值、P值,Ridit分析u值或χ2值、P值,直线相关回归的相关系数r、回归系数b、相关回归系数假设检验的tr或tb值、P值是一致的;诊断试验评价的灵敏度、特异度、假阳性率、假阴性率、Youden指数、阳性似然比、阴性似然比、一致率、阳性预测值、阴性预测值、曲线下面积以及ROC曲线是一致的;抽样调查估计总体率的样本含量、样本率与总体率比较的样本含量、完全随机设计两样本率比较的样本含量、抽样调查估计总体均数的样本含量、配对设计单一总体均数比较的样本含量、完全随机设计两总体均数比较的样本含量、病例对照研究的样本含量、队列研究的样本含量、寿命表计算的期望寿命是一致的;Meta分析中P、u、t、F、χ2值资料合并的u值或χ2值、P值,计数资料实际数合并、率差合并以及计量资料均差合并的齐性检验、固定效应模型、随机效应模型的计算结果与教科书或RevMan软件结果也是一致或基本一致的。但Meta分析中部分计算结果与教科书或RevMan软件结果存在一定的差异,原因有待查实;灰色序列模型计算结果没有标准值对比,选择公开发表的文献作为参照,结果一致。综上所述,在Excel中可以完成计算平均值、标准差、例数、最大值、最小值、极差、中位数、几何均数、偏度系数、峰度系数、ug1、ug2、正态检验D值、变异系数、P2.5、P25、P75、P97.5、95%的可信区间,制作频数分布表,绘制频数分布图;可完成样本均数与总体均数比较、配对样本均数比较和两个独立样本均数比较的t检验;可完成完全随机设计的方差分析、随机区组设计的方差分析;可完成普通四格表、配对四格表、病例对照研究四格表、队列研究四格表、R×C行列表的χ2检验;可完成两组或两组以上有序分类资料的Ridit分析;可完成直线相关分析、直线回归分析(Pearson相关回归)和Spearman秩相关分析;可完成计算诊断试验的灵敏度、特异度、假阳性率、假阴性率、Youden指数,似然比、一致率、预测值,绘制ROC曲线;可完成抽样估计总体率的样本含量、单个总体率假设检验的样本含量、完全随机设计两总体率假设检验的样本含量、配对设计总体率假设检验的样本含量、抽样估计总体均数的样本含量、配对设计单总体均数假设检验的样本含量、完全随机设计两总体均数假设设检验的样本含量、病例对照研究和队列研究的样本含量的计算;可完成完全随机化设计的随机化分组、配对设计的随机化分组、配伍组设计的随机化分组;可完成现时简略寿命表、去死因寿命表、健康期望寿命表的计算;可完成1阶1个变量的微分方程模型,即GM(1,1)灰色序列模型的计算;可完成对P、u、t、F、χ2值资料合并的Meta分析、对计数资料合并的Meta分析和对计量资料合并的Meta分析。同时,所编Excel程序具有界面直观、操作简单、通用性强的特点,其计算结果与国际通用的SAS、SPSS等软件以及教科书的结果一致或基本一致。因此,应用Excel的计算函数和计算公式,编写一套准确、方便、直观、通用、中英兼备的计算分析工具,弥补目前权威计算软件无中文版、操作复杂、不便普及和推广的缺陷。此为本文之特色。在具体应用中需要注意几点:①计算过程不宜太复杂。在做单因素、两因素和三因素logistic回归计算中,由于迭代等原因,计算工作量随分析因素的增加呈倍数增加,在很大程度上制约了多因素logistic回归程序的编制。因此,对于一些特别复杂的统计计算,建议采用专业的统计软件解决;②“四舍五入”对计算结果存在影响。计算中用“单元格格式”设置“小数位数”只能将单元格中的显示“数值”四舍五入,其参与运算的“数值”并没有四舍五入,造成其显示内容与计算内容不一致;③VB编程。VB是当今世界上应用最广泛的、编程效率最高的一种编程语言,其开发功能强大、性能可靠,编写处理实际问题的实用小程序,具有快速、简便的功效,可以解决许多依靠Excel本身不能解决的问题;④程序“下拉”扩展计算问题。在编制的程序中,一般按常规需要预留了数据录入空间和中间值的计算空间,但特殊情况下需要扩展计算,可以通过软件中“选定”、“下拉”方式自动填充,以完成中间值程序的编制和结果的计算;⑤存在有待解决的问题。没有得到两两比较SNK法的q界值计算公式,无法完成其编程计算,所以采取if等语句编程读q界值表的方法确定q界值,使程序略显冗长;在确切概率法计算中,总例数n<40时,列出了确切概率法计算的20个不同的组合表,当n较大时,确切概率法的阶乘运算可能存在计算溢出问题。