药品不良反应信号检测中重复报告的识别及消除

来源 :中国人民解放军海军军医大学 | 被引量 : 0次 | 上传用户:julykoko
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
研究背景:自发呈报系统数据库是药品不良反应监测的重要依据,是实现有效药物警戒的基石,随着时间的推移、数据的积累以及国家对药品安全性问题的重视,上报至国家药品不良反应监测中心的不良反应报告日益增多,至2017年底我国自发呈报系统收集到的报告已超过1100万份。由于《药品不良反应报告和监测管理办法》要求药品生产企业、经营企业和医疗机构发现药品不良反应均应进行上报,以及录入跟踪报告时与之前的首次报告未进行关联等原因,故难以避免重复报告的问题。且近期国家食品药品监督管理总局颁布《关于药品上市许可持有人直接报告不良反应事宜的公告》,要求药品上市许可持有人必须报告药品不良反应,又会带来新的重复报告问题。重复报告的存在会引起假阳性或假阴性不良反应信号,从而影响药品不良反应信号检测的准确性。如何利用统计学方法从海量的不良反应数据中有效地识别并去除其中的重复报告,从而为之后的不良反应信号检测提供可靠的数据,是当前亟待解决的问题。研究目的:本研究以我国药品不良反应自发呈报系统数据库为依托,主要探索两部分内容。首先对我国不良反应数据库重复报告现状进行初步分析,构建适用于我国数据库结构的变量匹配模型、概率匹配模型和编辑距离法模型,经过比较筛选出去除重复报告的最优模型。其次使用最优模型识别并剔除我国不良反应数据库中的重复报告,重新检测不良反应信号,探索重复报告对信号检测的影响程度,为下一步药品不良反应信号检测提供高质量数据。研究方法:方法学研究:首先,按照报告日期随机抽取一个月的数据,使用变量匹配法找出疑似重复报告,然后通过双人分开对比报告中的其他变量,找出其中的重复报告,获得重复报告金标准数据库,为模型评判做准备;其次,以重复报告金标准数据库为依托,将三种方法运用到该数据中,从姓名、性别、出生日期、药品名称、不良反应、不良反应发生日期六个变量中,选择不同变量组合,组成四种情境(情境1:姓名、性别、出生日期、药品名称、不良反应、不良反应发生日期;情境2:姓名、出生日期、药品名称、不良反应、不良反应发生日期;情境3:姓名、性别、药品名称、不良反应、不良反应发生日期;情境4:姓名、药品名称、不良反应、不良反应发生日期),以查全率与查准率组成的综合指标F1-Measure为评判指标,构建最优的变量匹配模型、概率匹配模型和编辑距离模型。为了提高运行效率,概率匹配模型和编辑距离模型使用多次查找技术。实例应用:将三种模型应用到2014年国家药品不良反应数据中,识别其中的重复报告,将重复报告剔除后重新进行信号检测,并与未去除重复的信号检测结果进行比较,分析重复报告去除前后的新增信号和消失信号,将新增和消失信号与已知的不良反应数据库进行比对,对结果进行解释。研究结果:1.方法学研究:(1)重复报告金标准数据库本研究从2014年数据库中,按照报告日期,抽取3月份86882份报告,使用纳入不同变量的变量匹配法(出生日期、药品名称、不良反应、ADR日期;姓名、性别、出生日期、ADR日期;姓名、药品名称、不良反应),找到疑似重复报告1280组。经过双人分开对比民族、体重、电话、疾病史、病历号、报告人、就医单位等其他变量,确定重复报告359组。(2)模型结果经过4种情境的比较,变量匹配模型在情境4,纳入姓名、药品名称、不良反应、不良反应发生日期四个变量时,F1-Measure最高,为58.82%,查全率和查准率分别为57.10%和60.65%。概率匹配模型在情境2,纳入姓名、出生日期、药品名称、不良反应、不良反应发生日期五个变量,且阈值为38.5时,F1-Measure最高,为74.93%,查全率和查准率分别为71.59%和78.59%。而编辑距离模型在情境4,纳入姓名、药品名称、不良反应、不良反应发生日期四个变量,且阈值为3.85时,F1-Measure最高,为75.96%,查全率和查准率分别为74.37%和77.62%。变量匹配模型、概率匹配模型和编辑距离模型分别检测出205、257和267组真阳性重复组合。2.实例应用本研究基于国家药品不良反应自发呈报系统2014年1322641份数据,采用变量匹配模型、概率匹配模型和编辑距离模型分别筛选重复报告。变量匹配模型共发现4191组重复报告,重复报告发生率为0.35%,但对于姓名缺失的报告,其真实性令人怀疑。概率匹配模型共发现5230组重复报告,发生率为0.36%。但对于仅不良反应发生日期不同的高度重复报告中,该模型不能很好的进行识别,比如白细胞减少和骨髓抑制不良反应报告。编辑距离模型发现4309组重复报告中,发生率为0.32%,与变量匹配模型相比,编辑距离模型不仅将完全相同的两条报告筛选出来,同时也将存在微小差异的两条报告筛选出来;与概率匹配模型相比,编辑距离模型精确度更高,更值得信任。去除重复报告前ROR、PRR和IC三种方法分别检测出29921、32428和21994个药品不良反应信号,使用变量匹配模型、概率匹配模型和编辑距离模型去除重复报告,ROR方法得到三种模型结果分别为28803、28612、28739,PRR为31248、31086、31201,IC分别为21242、21050和21155,信号数量有一定的减少,但前后变化较小,说明现阶段重复报告对不良反应信号检测影响有限。将去除重复之后得到的信号检测结果与去除重复之前进行比较,发现消失的信号中90%以上都是假阳性信号。研究结论:综上所述,本研究建议使用变量匹配模型(姓名、药品名称、不良反应及其发生日期)或者编辑距离模型(姓名、药品名称、不良反应及其发生日期,阈值为3.85)去除我国药品不良反应数据库中的重复报告,并且需要进一步通过人工来确定模型筛选出的重复报告。虽然现阶段我国药品不良反应重复报告发生率不足1%,但由于《关于药品上市许可持有人直接报告不良反应事宜的公告》的存在,重复报告的发生率必将上升,因此一定要重视数据库中的重复报告。
其他文献
利用CCD图像采集系统,对外循环管内颗粒流动状况进行考察,获得了外循环流化床最大颗粒循环流量,并考察了喷嘴直径、喷嘴安装位置以及液体粘度对外循环流化床内最大颗粒循环流量
我们所面临的现实,甚至我们的生命都并非是我们的主观选择。现实生活到底有无意义,有无价值,这历来都是伦理学的一个基本问题。我们的行为方式在很大程度上取决于对这一问题的回
以欧拉双流体模型和两相流体动力学理论为基础,采用K—ε湍流模型对上升管内固液两相流流化过程中两相速度分布、流场特性以及局部压力变化进行了模拟.结果表明管内颗粒存在非
目的第三代抗癫痫药物为2008年以后批准上市的抗癫痫药物,包括拉科酰胺、卢非酰胺、瑞替加滨、吡仑帕奈、醋酸艾司利卡西平、布瓦西坦以及司替戊醇。本文的目的为评价第三代
<正> 更年期综合征是在绝经前后出现的一系列以植物神经功能紊乱症状为主要表现的症候群.其中部分患者症状比较严重,甚至影响正常生活和工作.笔者自1985年来采用中医分型论治
近年来全国大学生数量急剧攀升。大学生是社会的新鲜血液,大学生的综合素质的高低影响着社会的发展,而学校是培养大学生的主要基地,大学生的校园生活在很大程度上影响着大学
为分析慢性非传染性疾病史对患脑卒中风险的影响,调查了辽宁省阜新市农村地区年龄在35岁以上居民的流行病学特征,基于基线调查的数据,选取合适的变量,在明确变量的特征形态基
<正>布迪厄的场域理论认为文学场在权力场的内部占据被统治的位置,"无论它们多么不受外部限制和要求的束缚,它们还是要受总体的场如利益场、经济场或政治场的限制"(1)。比之
用集成在移动船载温盐剖面仪(MVP)的激光型浮游生物光学计数仪(LOPC),于2012年7月底在南黄海35°N断面调查浮游动物丰度的水平和垂直分布情况,并对获得高时空分辨率的数据资
我国国内上市公司中,国有资本占多数。不过目前我国国有企业在财务方面也暴露出了一些问题:会计信息失真、金融超额支付不合理、国有资产流失。这三个问题的核心在于对财务收