基于依存句法分析的超声检查报告结构化处理方法

来源 :东华大学 | 被引量 : 4次 | 上传用户:maitianquan159
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
超声检查报告记录了病人在一次超声检查后得到的影像描述及医生的诊断结果,是重要的临床信息,也是医学领域研究重要的数据来源。为了能够更准确地描述患者的病情,医生通常以自然语言书写各类检查报告的内容,上述非结构化数据描述不利于计算机进行自动分析和处理,在一定程度上阻碍了医疗大数据的信息挖掘和知识发现,因此有必要在分析之前进行结构化处理。目前针对中文自然语言的文本结构化处理方法主要采用的是信息关系抽取技术,然而该方法的可扩展性较差,而超声检查报告中对不同检查部位具有不同的表述特征,所以现有的中文信息关系抽取技术无法适用于超声检查报告文本的结构化处理。为解决上述问题,本文在传统信息关系抽取技术的基础上结合句法分析方法,并根据超声检查报告特有的语法特征,提出了一种基于依存句法分析的医疗指标结构化处理方法。该方法通过分析文本句子结构,获取句中各成分之间的依存关系及语义特征,同时构建依存关系树,最终从依存关系树中获取器官组织或病症的属性描述,进而将非结构化的超声检查报告提取成key-value形式的结构化数据,方便计算机进行分析处理。本文所做的研究如下:首先,本文对现有中文自然语言结构化处理方法的现状进行了归纳,探讨了实体关系抽取、依存句法分析以及基于机器学习方法等结构化处理方法的优缺点,同时对本文涉及的同义词识别方法和文本标注方法的研究现状也作了说明。接着对本文所使用的Word2vec词向量训练工具和Han LP中文自然语言处理工具的工作原理进行了阐述。其次,对本文所提出的基于依存句法分析结构化处理方法的整体框架作了说明,分别介绍了该框架中的主要模块,并对其中的核心算法依次作了详细说明。设置预处理模块是为了消除一义多词现象,通过神经网络语言模型构建超声检查报告的同义词表得以实现;指标提取模块中利用依存关系树生成结构化模板,并采用切分短句和文本标注相结合的分治剪裁策略简化依存关系树结构,使语法关系更加清晰,提高结构化结果的准确度;在后处理模块中对噪声数据进行修正,同时优化算法,提高其可扩展性。最后,本文使用真实的医院病理检查报告数据作为实验数据集,验证了本文提出的结构化处理方法的可用性及通用性。实验表明,针对超声检查报告的指标词和对应指标值提取的准确率可以分别达到82.91%和79.11%,为相关研究打下了基础。
其他文献
软件项目估算包括项目工作量、开发时间和成本等内容。在软件项目开发过程中,项目估算一直是一个非常困难却极其重要的问题。一个准确的估算结果,有利于开发团队制定一个合理有
空间离群检测能够帮助人们发现潜在的、有趣的空间数据模式,并把它用于未来演变趋势的分析研究。在许多实际情况下,这些不寻常的空间离群事件往往具有出乎意料的研究价值,因此空
随着计算机科学的高速发展,系统攻击与入侵行为正对国家安全、社会生活造成越来越大的威胁与隐患。为对系统进行安全防御,有效地解决入侵检测,结合数据挖掘的系统日志分析由
在军事或者医疗等需要精密无误图像信息的领域往往需要在图像中加入认证信息,如果用传统的数字水印方法,会永久地破坏掉一部分图像信息。然而在这些领域,往往一点点的差错都会导
物流公共信息服务系统是现代物流信息系统的重要组成部分,主要负责物流信息的采集、传输、存储、处理、发布,以及企业物流信息资源的整合。  本课题围绕物流公共信息服务系统
伴随网络规模扩大及新技术应用,IPv6协议得到了广泛发展。现阶段网络正处于IPv4与IPv6共存时期,新的网络环境要求网管技术在传统IPv4网管的基础上解决过渡技术、IPv6网络的管理
随着时代的发展,GUI (Graphical User Interface,图形用户接口)已经发展成为了软件领域必不可少的技术,大部分的软件都使用了GUI,这也使得基于GUI软件的测——GUI测试变的必
近年来,微博作为一种新的信息发布平台和社交平台越来越受到人们的关注,蕴含着巨大的政治和商业价值。通过对博文大数据展开情感倾向性分析,可以实现微博营销、品牌宣传、客户关
视频点播服务(Video-on-Demand)允许用户进行交互式操作,即用户可以跳跃式观看某个影片的不同时间段,已成为互联网上最流行的应用之一。在P2PVoD中,观看同一部影片的不同用户
SYN洪泛攻击是目前网络中危害最大的拒绝服务攻击,由于很难区分攻击请求与正常请求,SYN洪泛攻击很难防御,目前提出的各种防御措施均不能保证网络设备在SYN洪泛攻击中存活。流量