临床文本数据信息挖掘去识别技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xmyone1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目的:本研究针对临床文本患者隐私保护问题,构建高质量临床文本去识别方法,在保证数据价值的基础上,最大化保护病人隐私,从而有助于大数据的共享、融合和利用,我们旨在(1)描述中文临床文本中PHI的分布情况,(2)提出一种基于机器学习方法的中文临床文本去识别方法,以及(3)验证高效的机器学习算法在中文临床文本去识别研究中的有效性。  方法:基于从四川省雅安市的一个区域人口健康信息平台中随机抽取的14719条出院小结数据,我们构建了一个条件随机域(Conditional Random Fields,CRF)模型来识别临床文本的PHI,并针对样本中数量较少的PHI类别设计相应的正则表达式来优化综合识别结果。  结果:通过大量的人工标注,本研究构建了带有PHI标记的中文临床文本语料库,临床文本的描述性统计结果显示,在中文临床文本中PHI分布的广泛性和多样性。去识别模型评估结果显示,为分词工具添加临床概念外部词典提高了去识别模型的表现;在词汇特征基础上加入字典特征后,基于CRF的去标识模型的整体性能得到了显著改善,F值从97.73%增长到98.73%;在CRF模型基础上结合后处理规则后F值增加到0.9878。  结论:随着电子病历在卫生保健机构的迅速普及,迫切需要能够分析中文临床文本中患者特定信息的工具。本研究中CRF算法在临床文本去识别中的良好表现,显示出了该模型应用于中文临床文本去识别的潜力,为中文临床文本去识别研究提供了一个高效的解决方案。
其他文献
2008年5月1日开始实施的《中华人民共和国政府信息公开条例》将公共图书馆纳入政府信息服务体系,这无疑是在政府信息公开工作中给了图书馆一个重要定位,赋予了图书馆一个新的
学位
随着互联网时代的到来,网络舆情已成为反映社情民意的晴雨表。作为近年来非常热门的网络社交平台之一,微博以其传播的及时性、内容的自主性、互动的友好性等优势,不仅成为了
(1)学费:1000元。可函授,也可面授。函授有详尽的技术资料和教学光盘。  (2)不锈钢成型模具380元。一次可做54块干洗皂。20分钟成型一次。  (3)精美彩印包装盒1000套,(内外包装、带注册商标和条形码)共250元。  (4)大包装箱10个,共50元。(每大箱装100盒干洗皂)。  (5)可生产1000块干洗皂的4种化工原材料共计180元。  以上共需1860元。收到以上全部技术资料和
以当前机构信息复杂紊乱的现状和用户在信息检索、学术统计、知识评价、机构合作等领域的需求为研究背景,通过对机构数据的特点、机构属性、机构关联关系等内容进行调研、分析