论文部分内容阅读
现如今,人工智能技术飞速发展,各行各业都已经拥有海量的数据,对这些海量数据如何进行合理的使用是人们亟待解决的问题。医学和大数据紧密相连,医疗领域对人们的影响也越来越大。遗传病是人们关注的一个重要话题,众多数据库如OMIM,Orphanet,Disease Ontology等囊括了大量遗传病的知识,但是不同的数据库可能会存在数据不一致的问题。如果能将多个网站的数据进行整合,形成一个全面、专业的遗传病数据网络,医生、研究人员、患者将会得到一种更加便利的资源获取途径。而融合这些网站数据的最关键的一步就是知识的实体对齐。目前,关于实体对齐的研究对象主要是各类百科和公开数据集,在医疗领域研究实体对齐比较少,而且研究的都是比较宏观的知识库,针对遗传病领域的更是寥寥无几,基于此本文尝试将实体对齐的方法应用到遗传病领域的数据库中。本文对三个遗传领域数据库(OMIM,Orphanet,Disease Ontology)进行两两实体对齐的研究。从这三个数据库的官网上抓取网页信息并存储为指定格式,然后对数据进行数据清洗、词形还原、英文分词、去除停止词和特殊字符等预处理工作。采用ICD10编码连接和手动标注相结合的方法,对三个数据库共计15296条数据进行标注。本文从基于网络语义标签的实体对齐算法和机器学习算法两个大方面进行对齐分析,本文所有的计算和分析都基于Python。基于网络语义标签的实体对齐算法首先用计算疾病名称相似度以生成候选实体对,然后用候选实体对计算多标签综合相似度,根据综合相似度判断实体对齐。结果表明,多标签综合相似度比名称相似度、疾病描述相似度的判断有着更高的准确率,但是精准度和召回率不高。本文将不平衡数据处理结合机器学习探究实体对齐,从单分类层面、数据层面、算法层面三个角度考虑实体对齐的分类问题,比较各模型的分类效果,找寻最佳模型,最终得出基于stacking的两层分类器的在测试集上效果最好。