基于特征的医学同义词算法设计及其应用

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:boyhill
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自人工智能技术发展以来,各领域都在寻找有利的结合点,最近几年,人工智能技术也不断涌现出与医疗领域结合的趋势,同时大量的数据资源、快速的计算能力、算法的不断优化等基础准备的成熟与创新也成为发展医学领域智能化技术的重要基石。在这种趋势下,我国医疗智能化的发展面临着前所未有的机遇和挑战,图像和语音技术的成熟为医疗行业带来新的机遇,但是由于语言的复杂性使得自然语言处理在医疗领域的应用仍然面临着诸多挑战。例如,中文医学标准术语集不完善,中文分词难度大,中文医学临床数据标准程度不高;在整合医学文本和其他数据资源时,往往遇到多词一意的情况,使得我们很难构建一个更为丰富的医学知识库;医学实体在术语化和口语化之间的不同导致病人与医疗系统存在沟通成本,阻碍了智能化医疗系统的发展和普及。由上述问题可知,医学同义词提取是将自然语言处理应用到医学领域的一个关键技术,已经存在的同义词词库并不完整,尤其在医疗领域几乎没有,仅仅依靠人力来扩充和丰富医学同义词数据是一项非常消耗人力和财力的任务。针对上述问题,本文构建了一个中文医学同义词数据集,比较了基于余弦相似度和支持向量机的同义词分类算法,在此基础上提出了基于注意力机制的医学同义词分类算法并应用到同义词在线编辑检索平台中。该方法不仅充分利用了医学文本的上下文信息学习到每个医学实体的词向量表示,还结合了医学词汇特征和搜索引擎信息挖掘特征向量。在比较了两种同义词分类算法的基础上,本文提出的基于注意力机制的同义词分类算法合理的为每个特征学习到合适的权重,提高了同义词分类的效果。同义词在线编辑平台很好的满足了不同用户的各种需求,为获取医学同义词提供了便捷。本文的主要研究内容如下所示:(1)医学同义词的特征挖掘利用医学词汇特征和搜索引擎信息捕获全局上下文信息,并加入到专注于局部上下文信息的词向量中为其赋予更实际的含义,学习了语言和语境语义特征,提高了低频词的知识表示能力和信息学习的局限性。(2)比较基于余弦相似度的医学同义词分类算法本文充分利用了上下文信息学习到的词向量,和挖掘到的特征向量作为输入,利用余弦相似度算法得到同义词分类结果,并比较了不同的向量表示方法的性能。(3)比较基于机器学习的医学同义词分类算法本文将得到的余弦相似度和挖掘的特征作为最终的医学同义词特征输入到机器学习分类算法(SVM)中,实现了更好的同义词分类结果。(4)提出基于注意力机制的医学同义词分类算法在使用机器学习进行分类时,我们发现SVM并不能充分的捕捉到不同特征对分类结果带来的影响,因此提出注意力机制为不同的特征赋予更合适的权重,最终实现了更好的分类结果。(5)构建医学同义词数据集和设计同义词在线检索编辑平台本文利用网络爬虫技术和海量互联网资源,完成了中文医学同义词库的基本构建。并将该同义词库及本文提出的同义词分类算法嵌入到同义词平台中供用户使用。
其他文献
晕动症是人们日常生活中经常发生的生理现象,例如人在乘坐车、船等交通工具时。随着虚拟现实技术的飞速发展,各种虚拟现实设备出现在我们的日常使用中。但是人们在体验虚拟场景时经常会感到头晕、恶心等晕动的相关症状,这极大的降低了用户体验,并且阻碍了虚拟现实技术的推广和发展。因此,对于晕动症的研究变得十分迫切。如何去判断晕动症是否产生或者去预测晕动症的程度成为了晕动症研究领域的重要问题。针对上面的这两个问题,
随着基于图像引导的术中导航技术的不断发展,不同模态的医学图像配准技术在心脏介入手术中发挥着越来越关键的作用。术前CT和术中超声的配准可以帮助手术医生诊断患者的病情,更好地进行介入手术。本研究在深入了解不同模态医学图像配准的研究现状的基础上,针对传统的配准方法的优点和缺陷,提出了具有创新性的CT与超声的配准方法,与电磁导航系统相结合,用于心血管介入手术的术中引导。本研究的配准方法主要分为三个阶段。首
比特币,承载对中心化节点的不信任,在金融危机中诞生。贯彻比特币思想的一众加密货币(不包含瑞波币等),核心意愿是一方面以共同维护账本代替中心对支付数据不可见的存储与处理,另一方面将铸币权依去中心化程度不同分散到不同数量的参与者。工作量证明(Po W)作为占据主导的一种共识协议,设计愿景能够实现较高程度的去中心化,但由于参与者获得稳定收益的诉求,自发组成矿池,导致了算力的中心化;不诚实参与者对协议的多
在传统设计施工模式中,基于平法施工图进行配筋信息表达,具有几何信息不明确,信息数据难以协同共享等局限性。通过BIM技术,可以有效弥补上述不足,减少材料浪费和工期延误等问题。然而BIM应用过程中,由于各方数据标准的私有性,其钢筋数据信息难以协同共享。目前,依靠人工翻模或数据接口的数据交互模式,其效率低下,费用高昂,且不可避免存在数据丢失或误差。因此,基于一种通用的数据标准,提取结构设计阶段的配筋数据
智能门锁系统是智能家居的一重环节,是提高家庭、宾馆和办公室等场所安全、管理效率的有效措施。据此,论文研究、设计并实现了一套面向B端市场(公租房、酒店和企业办公等)的智能门锁系统,该系统具有多元鉴权认证、视频监控、云端集群管控、移动端应急处理与无线升级等功能。此外,为了保障信息安全,论文提出了一种针对本系统改进的嵌入式终端信息传输加密方案。首先,信息传输加密层面:论文选用SM4+CTR对称加密算法,
人体目标的身份识别是无人商店应用场景中的一个重要环节,从用户入店时的身份验证,再到店内的用户身份识别,需要同时保证识别的实时性和准确性。首先,相对于传统的目标检测与跟踪的解决思路,借鉴“仅看一眼就知道目标分类”的YOLO目标检测思想,以YOLO算法和图像特征识别算法为基础,提出了“仅看一眼就知道是谁”的研究思路,设计了室内监控对象身份识别模型。其次,对VOC数据集进行重新标注,使得标注后的数据集包
随着硬件设备、网络传输的不断发展,多媒体内容已经成为我们日常生活的重要组成部分,人们可以随时随地通过各种便携式显示设备观看图像/视频。图像/视频内容通常是在考虑特定目标分辨率的情况下制作的,而不同的显示设备往往没有统一的长宽比。图像/视频重定向技术就是将图像/视频适配到目标屏幕上进行更好的播放。但是目前所广泛采用的朴素的重定向方法缺乏了对图像/视频内容特性的考虑,都有着不同的本质上的缺陷。因此,基
对于图像去噪问题的研究长期以来都在计算机视觉领域中占据十分重要的地位,这是因为基础图像的质量将在很大程度上制约后续图像信息处理的效果。图像噪声的类型多种多样,而高斯噪声的特性使其成为图像去噪算法研究中最为核心的一种,本文的研究重点也正是图像的高斯去噪问题。过去传统的图像高斯去噪方法建立在图像先验知识模型的基础上,这依赖人的经验,可能导致在建模的过程中难以利用到图像的一些高级特征,存在一定的局限性。
随着VR技术的发展,VR游戏逐渐盛行,线下出现了一批VR体验店、VR自助机,同时也有越来越多的VR游戏爱好者,入手VR设备开启VR游戏。游戏发展到一定阶段也往往伴随着游戏平台客户端的产生,但是当前VR游戏市场不健全,玩家挑选游戏耗时费力,VR游戏运行需要安装各类插件,入手难度高;以及账号过多难以管理,游戏的下载、安装更新比较繁琐,这时一款合适的VR游戏平台客户端显得尤为重要。国内VR游戏客户端如造
近年来,目标检测在智能安防、智慧城市、智能工厂、智能汽车等多个领域应用广泛。由于目标检测的核心技术是深度学习,所以目前大多数的目标检测模型部署在服务器端,但这种方式存在两个弊端:一是随着部署的需求量骤增,大量配置高性能服务器在经济上会造成巨大压力;二是摄像机等边缘设备采集的待检测数据需要经过网络传输才能到达服务器,当数据量非常庞大时会影响到检测的时效性。随着边缘设备的日渐流行,其小体积、高性价比、