论文部分内容阅读
蛋白质磷酸化是生物体内最重要的一种蛋白质翻译后修饰,目前大量的人类疾病都被证实是由异常的磷酸化修饰所引起的,一些与疾病相关的磷酸化修饰可以被开发为疾病的分子标志或治疗靶标。随着生物医学文献的爆炸性增长,如何从生物医学文献中自动抽取蛋白质磷酸化与疾病之间的关系成为相关领域的研究热点。蛋白质磷酸化与疾病关系抽取任务包括疾病命名实体识别和蛋白质磷酸化与疾病关系判断。目前解决疾病命名实体识别问题的主流方法是机器学习,但是机器学习的方法难以有效地识别疾病命名实体中的医学术语,蛋白质磷酸化与疾病之间的关系抽取目前没有可获得的公开系统。本文对蛋白质磷酸化与疾病之间的关系抽取问题进行了研究,研究工作和贡献如下:本文给出了一种条件随机场与语义词典相结合的疾病命名实体识别方法,其中利用网络资源来构建含有语义信息的医学术语词典可以克服病疾命名实体中的医学术语识别的难点。先使用该词典获得医学术语的语义信息;然后CRF利用这些信息结合词法与词性特征、拼写与领域特征对疾病命名实体进行识别;最后对缩写词识别进行调整,来提升疾病名实体识别的效果。在NCBI Disease Corpus数据集上的实验结果表明,本文方法比DNorm方法提升了约2.5%的F值;在开放数据集上实验验证了本文方法对于较长疾病实体识别具有一定的优势。蛋白质磷酸化与疾病之间的关系分为Absence(缺失)、Presence(存在)、Down-regulation(调降)和Up-regulation(调升)四种类型。本文实现了一个蛋白质磷酸化与疾病关系抽取系统PDRMine,该系统分为三个步骤:首先利用基于规则的蛋白质磷酸化信息抽取系统RLIMS-P从文献中抽取蛋白质磷酸化信息;再利用本文设计的疾病命名实体识别方法识别包含磷酸化信息句子中的疾病命名实体;最后利用基于规则的方法对蛋白质磷酸化与疾病之间的关系类型进行判断。触发词的识别是最后一步的难点,本文通过同义词扩展的方法扩大了触发词集合,提升了蛋白质磷酸化与疾病之间关系类型的判断效果。在开放数据集上取得了 72.6%的准确率和66.4%的召回率。