基于本体的疾病数据整合与挖掘方法研究

被引量 : 0次 | 上传用户:kyy06
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来疾病相关研究备受关注,其中疾病数据库整合、疾病相似度、疾病本体与基因本体术语关联是目前的研究热点。疾病数据库中的疾病术语描述不一致增加了疾病数据库整合的难度;疾病关联的多样性是计算疾病相似度面临的挑战。用定量的方法衡量文献中的术语关联是挖掘跨本体术语关联亟需解决的难题。本文针对疾病研究中所存在的这些困难进行了深入的探讨和研究,其主要内容如下:(1)提出了基于疾病本体的疾病数据库整合方法。疾病相关的数据库众多,其中每个数据库都记录着疾病与一两种特征之间的关联,且它们之间缺乏交互,无法为疾病提供统一的视图。本文根据疾病术语之间的同义词关系以及本体中存在的集合包含关系,将疾病数据库中的疾病术语分别以同义词映射以及推理映射的方式映射到到疾病本体的术语上,从而整合了不同疾病数据库中的疾病术语。按疾病特征类型将疾病数据库分类,将疾病数据库中的疾病特征映射到该特征所通用的标识符,并按疾病特征类型合并相同记录,去除冗余数据。基于集成的疾病数据库,挖掘了疾病之间的关联以及特征之间的关联。(2)提出了基于基因关联网络的疾病相似度算法。基于基因之间的关联计算疾病相似度是当前疾病相似度方法的研究热点。基因之间的关联方式有很多种,但是目前的方法都仅考虑了基因之间的一两种关联。本文首先将疾病的相似度转换为疾病相关的基因集之间的关联分值,然后基于综合的加权的人类基因关联网络设计算法。该算法首先将加权的人类基因关联网络标准化,再根据基因对的关联权值计算基因集之间的关联分值。通过从文献中搜集相似的疾病对作为基准集,对疾病相似度算法的性能进行了有效的评价,证实了基于基因关联网络的疾病相似度算法优于已有的其他算法。(3)提出了集成语义与基因关联的疾病相似度算法。综合的加权的人类基因关联网络可用于衡量疾病相关的基因集之间的关联分值;疾病术语对、以及它们在疾病本体中的共同祖先相关的基因数可用于计算疾病术语的语义关联分值。这两类关联分值的乘积被用于计算集成的疾病相似度。本文的研究证明,该算法适用于假设“相似的药物通常可以治疗相似的疾病”。同时,本文基于该假设实现了疾病相似度系统,挖掘了疾病的潜在治疗药物。(4)提出了基于文献的跨本体术语关联算法。当前的基于文献的术语关联方法仅通过术语出现的文献数目来衡量跨本体术语之间的关联,这不利于发现通过语义关联建立起的跨本体术语关联。本文利用本体中术语的语义关联扩展术语与文献之间的关联,并基于扩展的关联设计算法计算跨本体术语之间的关联分值。本文将该算法应用于挖掘基因本体和疾病本体的术语关联,取得了良好效果。
其他文献
依行政程序处理瑕疵结婚登记,应当严格遵循婚姻法和婚姻登记条例的规定,充分考虑裁判对实体结果的影响,除法定无效和可撤销情形外,其他存在瑕疵的结婚登记,凡当事人在行政诉
结肠癌是胃肠道中常见的恶性肿瘤。结肠癌并发急性肠梗阻是肠梗阻的一种特殊类型,多为闭袢性肠梗阻,也是结肠癌晚期的临床表现之一,而梗阻时间越长,肠道血运障碍程度就越重,
艺术表现和艺术创作的途径有很多种,写生是艺术家对客观物象直接描绘的最重要的手法。油画风景写生是对大自然的景色直接进行描绘,艺术家通过油画风景写生来表达自然的美丽,
目的 对肺气肿和肺功能对慢性阻塞性肺疾病患者肺炎病情发展的影响进行分析。方法 选取2015年1月-2017年1月于本院接受治疗的140例慢阻肺患者。依照有无肺炎发生将其划分为肺
<正>●教材分析本节课为人教版《数学》初一下学期的内容,由学生已经熟悉的三角形内角和定理引入,探索三角形外角的性质。在呈现方式上改变了以往"结论—例题—练习"的陈述模
<正>阅读教学是初中英语教学的核心内容之一。多年来,广大英语教师在阅读教学中为培养学生的阅读技能,提高学生的阅读能力,并最终培养学生的综合语言运用能力作了很多探索与
结合电镀生产工艺的特点,提出了预先危险性分析和经过改进的作业条件危险性评价相结合的危险性评价方法(简称PHA-MES危险性评价法),并对某厂镀锌生产线进行半定量危险性评价,
针对音乐教育中沂蒙民歌教学薄弱的现状,通过对音乐教育嵌入沂蒙民歌的理论研究和实践探索,探索通过嵌入沂蒙民歌提升学生综合音乐素养的路径和对策,为培养具有沂蒙精神特质
通过对大学生养成教育的基本内涵与实践的梳理,对国内外的研究现状进行了评价,探索了高职大学生养成教育的主要内涵,并结合中华女子学院高职教育的实际提出要在认知养成、情
<正>一些学生的作文"词汇贫乏"。究其原因,主要是在阅读教学中重语言知识,轻语言训练,特别是对朗诵教学的缺失。大多数教师在教学中,容易忽略朗读训练。而朗读是语