蛋白质磷酸化与疾病关系抽取研究

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:GoAndSeek
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
蛋白质磷酸化是生物体内最重要的一种蛋白质翻译后修饰,目前大量的人类疾病都被证实是由异常的磷酸化修饰所引起的,一些与疾病相关的磷酸化修饰可以被开发为疾病的分子标志或治疗靶标。随着生物医学文献的爆炸性增长,如何从生物医学文献中自动抽取蛋白质磷酸化与疾病之间的关系成为相关领域的研究热点。蛋白质磷酸化与疾病关系抽取任务包括疾病命名实体识别和蛋白质磷酸化与疾病关系判断。目前解决疾病命名实体识别问题的主流方法是机器学习,但是机器学习的方法难以有效地识别疾病命名实体中的医学术语,蛋白质磷酸化与疾病之间的关系抽取目前没有可获得的公开系统。本文对蛋白质磷酸化与疾病之间的关系抽取问题进行了研究,研究工作和贡献如下:本文给出了一种条件随机场与语义词典相结合的疾病命名实体识别方法,其中利用网络资源来构建含有语义信息的医学术语词典可以克服病疾命名实体中的医学术语识别的难点。先使用该词典获得医学术语的语义信息;然后CRF利用这些信息结合词法与词性特征、拼写与领域特征对疾病命名实体进行识别;最后对缩写词识别进行调整,来提升疾病名实体识别的效果。在NCBI Disease Corpus数据集上的实验结果表明,本文方法比DNorm方法提升了约2.5%的F值;在开放数据集上实验验证了本文方法对于较长疾病实体识别具有一定的优势。蛋白质磷酸化与疾病之间的关系分为Absence(缺失)、Presence(存在)、Down-regulation(调降)和Up-regulation(调升)四种类型。本文实现了一个蛋白质磷酸化与疾病关系抽取系统PDRMine,该系统分为三个步骤:首先利用基于规则的蛋白质磷酸化信息抽取系统RLIMS-P从文献中抽取蛋白质磷酸化信息;再利用本文设计的疾病命名实体识别方法识别包含磷酸化信息句子中的疾病命名实体;最后利用基于规则的方法对蛋白质磷酸化与疾病之间的关系类型进行判断。触发词的识别是最后一步的难点,本文通过同义词扩展的方法扩大了触发词集合,提升了蛋白质磷酸化与疾病之间关系类型的判断效果。在开放数据集上取得了 72.6%的准确率和66.4%的召回率。
其他文献
随着信息技术的快速发展和广泛应用,每天都在产生大量的数据。如何在“数据丰富,但信息贫乏”的环境中发现有价值的、有趣的、具有指导意义知识,是数据挖掘的重要任务。同时,数据
核能是现在世界上可利用的重要能源之一,核电站是核能利用的一个重要方面。但是核电站检修维护工作有很多环境是人不能现场操作的,所以在核工业以及核电站进行检修等人无法胜
视频监控系统随着计算机处理能力的提高及视频技术的发展,已成为现代安全防范系统中的重要组成部分。3G无线视频监控系统充分利用计算机的高速数据处理能力、对视频进行采集
随着民航事业的不断发展,机场噪声污染问题日益严重。因此,评价机场噪声水平及其对机场周围环境的影响具有重要的理论价值和实际意义。本文在机场噪声的背景下,对聚类有效性和聚
真实的水面环境模拟可以极大的增强环境的真实感,它已经成为图形学研究中的重要领域,相关技术也被越来越多的应用于电影特效和计算机游戏的制作中。现有的许多实时绘制系统往往
随着数字技术和互联网技术的迅猛发展,各种数字产品与信息在网上广泛传播,信息的共享和存取变得更加方便和快捷。然而,这种便捷性同时也带来了知识产权保护以及信息安全方面
近年来,随着虚拟现实技术的蓬勃发展,虚拟人在多个领域得到广泛应用。在体育仿真中引入虚拟人技术,构造一个具有高度沉浸感的虚拟赛场环境,能够提高运动训练的针对性,为运动
汽车工业发展至今,现代汽车在娱乐性、安全性和环保节能等方面的要求不断提高,产业竞争日趋激烈,汽车电子产品的质量和开发速度面临更高的要求。AUTOSAR标准是全球汽车厂商积极
TCP(Transmission Control Protocol,传输控制协议)的性能在无线有线混合网络中表现欠佳,其原因之一是在最初的TCP设计中,假定数据包的丢失都是由拥塞引起的,因此一旦侦察到数据
由于电力资源的需求分散在各个城市、各个地区,甚至各个角落,电力管理存在着相当大的困难。同时,为了提高供电效率,达到全社会节能的目的,实施阶梯电价、峰谷实时电价势在必