临床文本数据信息挖掘去识别技术研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户：xmyone1

【摘要】

：

目的:本研究针对临床文本患者隐私保护问题，构建高质量临床文本去识别方法，在保证数据价值的基础上，最大化保护病人隐私，从而有助于大数据的共享、融合和利用，我们旨在（1）描述中文临

【作者】

：

都丽婷

【机构】

：

华中科技大学

【出处】

：

华中科技大学

【发表日期】

：

2018年期

【关键词】

：

中文临床文本去识别技术机器学习 CRF算法隐私保护

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

目的:本研究针对临床文本患者隐私保护问题，构建高质量临床文本去识别方法，在保证数据价值的基础上，最大化保护病人隐私，从而有助于大数据的共享、融合和利用，我们旨在（1）描述中文临床文本中PHI的分布情况，（2）提出一种基于机器学习方法的中文临床文本去识别方法，以及（3）验证高效的机器学习算法在中文临床文本去识别研究中的有效性。　　方法:基于从四川省雅安市的一个区域人口健康信息平台中随机抽取的14719条出院小结数据，我们构建了一个条件随机域（Conditional Random Fields，CRF）模型来识别临床文本的PHI，并针对样本中数量较少的PHI类别设计相应的正则表达式来优化综合识别结果。　　结果:通过大量的人工标注，本研究构建了带有PHI标记的中文临床文本语料库，临床文本的描述性统计结果显示，在中文临床文本中PHI分布的广泛性和多样性。去识别模型评估结果显示，为分词工具添加临床概念外部词典提高了去识别模型的表现；在词汇特征基础上加入字典特征后，基于CRF的去标识模型的整体性能得到了显著改善，F值从97.73%增长到98.73%；在CRF模型基础上结合后处理规则后F值增加到0.9878。　　结论:随着电子病历在卫生保健机构的迅速普及，迫切需要能够分析中文临床文本中患者特定信息的工具。本研究中CRF算法在临床文本去识别中的良好表现，显示出了该模型应用于中文临床文本去识别的潜力，为中文临床文本去识别研究提供了一个高效的解决方案。

其他文献

我国公共图书馆政府信息服务调查研究

2008年5月1日开始实施的《中华人民共和国政府信息公开条例》将公共图书馆纳入政府信息服务体系,这无疑是在政府信息公开工作中给了图书馆一个重要定位,赋予了图书馆一个新的

学位

微博转基因舆情的社会网络分析

随着互联网时代的到来,网络舆情已成为反映社情民意的晴雨表。作为近年来非常热门的网络社交平台之一,微博以其传播的及时性、内容的自主性、互动的友好性等优势,不仅成为了

学位

微博舆情社会网络分析转基因技术意见领袖

要想发做日化水中求财

（1）学费：1000元。可函授，也可面授。函授有详尽的技术资料和教学光盘。　　（2）不锈钢成型模具380元。一次可做54块干洗皂。20分钟成型一次。　　（3）精美彩印包装盒1000套，（内外包装、带注册商标和条形码）共250元。　　（4）大包装箱10个，共50元。（每大箱装100盒干洗皂）。　　（5）可生产1000块干洗皂的4种化工原材料共计180元。　　以上共需1860元。收到以上全部技术资料和

期刊

化工原材料技术资料外包装注册商标教学光盘成型模具条形码箱装生产材料去污

机构规范文档元数据方案构建研究--以中文机构为例

以当前机构信息复杂紊乱的现状和用户在信息检索、学术统计、知识评价、机构合作等领域的需求为研究背景，通过对机构数据的特点、机构属性、机构关联关系等内容进行调研、分析

学位

机构信息规范化文档内容构建元数据方案

临床文本数据信息挖掘去识别技术研究

其他学术论文