基于遗传病领域的实体对齐研究

来源 :苏州大学 | 被引量 : 0次 | 上传用户:morningwind2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
现如今,人工智能技术飞速发展,各行各业都已经拥有海量的数据,对这些海量数据如何进行合理的使用是人们亟待解决的问题。医学和大数据紧密相连,医疗领域对人们的影响也越来越大。遗传病是人们关注的一个重要话题,众多数据库如OMIM,Orphanet,Disease Ontology等囊括了大量遗传病的知识,但是不同的数据库可能会存在数据不一致的问题。如果能将多个网站的数据进行整合,形成一个全面、专业的遗传病数据网络,医生、研究人员、患者将会得到一种更加便利的资源获取途径。而融合这些网站数据的最关键的一步就是知识的实体对齐。目前,关于实体对齐的研究对象主要是各类百科和公开数据集,在医疗领域研究实体对齐比较少,而且研究的都是比较宏观的知识库,针对遗传病领域的更是寥寥无几,基于此本文尝试将实体对齐的方法应用到遗传病领域的数据库中。本文对三个遗传领域数据库(OMIM,Orphanet,Disease Ontology)进行两两实体对齐的研究。从这三个数据库的官网上抓取网页信息并存储为指定格式,然后对数据进行数据清洗、词形还原、英文分词、去除停止词和特殊字符等预处理工作。采用ICD10编码连接和手动标注相结合的方法,对三个数据库共计15296条数据进行标注。本文从基于网络语义标签的实体对齐算法和机器学习算法两个大方面进行对齐分析,本文所有的计算和分析都基于Python。基于网络语义标签的实体对齐算法首先用计算疾病名称相似度以生成候选实体对,然后用候选实体对计算多标签综合相似度,根据综合相似度判断实体对齐。结果表明,多标签综合相似度比名称相似度、疾病描述相似度的判断有着更高的准确率,但是精准度和召回率不高。本文将不平衡数据处理结合机器学习探究实体对齐,从单分类层面、数据层面、算法层面三个角度考虑实体对齐的分类问题,比较各模型的分类效果,找寻最佳模型,最终得出基于stacking的两层分类器的在测试集上效果最好。
其他文献
传统中国园林在历史上功不可没,但在现代遇到了技术发展的瓶颈。生态园林作为传统园林的发展方向和高层模式,有其独特的学科领域、技术组成、生态功能以及遵循原则等特点。生态
通过对学习自由思想的内涵及其与自主学习的内在联系的研究,指出学习自由思想是大学生自主学习的思想基础。同时,就大学生自主学习的实施条件而言,在学分制下实施自主学习更符合
为进一步突出办刊特色,提高学术水平,我刊决定结合学校学科优势,2007年开辟《合作经济研究》、《农村金融研究》、《农村社会学研究》专栏(不定期),重点报道该领域省部级以上重大课
目的:对江西瑞金武阳镇野生中草药资源开展实地调查,掌握基本现状,为该地区中草药资源的保护与合理开发提供参考。方法:采用野外调查、民间采访、资料搜集等方法获取武阳镇相关信
肺癌放疗前后MRI表现初步研究吴永忠,雷自重重庆医科大学第一医院(重庆630042)1994年10月以来,我们有计划地对条件允许的肺癌病人于放疗开始前1日和放疗结束后3日分别行胸部MRI检查,旨在研究MRI对指导放疗
本实验室前期研究证明,在胚胎着床前对母鼠施加束缚应激,促进应激相关激素CRH和皮质酮(CORT)大量分泌,诱导输卵管上皮细胞凋亡,并且发现Fas和TNF-α系统参与该过程。体外实验进
自古以来,我国就有“民以食为天”、“开门七件事,柴米油盐酱醋茶”的俗语,可见吃喝是人生最基本的需求。
从"素质提高难"、"劳动效益低:产品无出路"及"发展投入不足"等3个方面对中国农村教师发展面临的基本问题作了进一步探讨:"民转公"与"代课"教师素质提高难,既是农村教师发展的
本论文采用水热合成方法,以Ln(Ⅲ)离子和具有4d10价电子构型的Ag(Ⅰ)离子和Cd(Ⅱ)离子为中心金属离子,选择具有多羧基官能团的3,5-吡啶二羧酸和邻苯二甲酸等为主要配体,草酸