论文部分内容阅读
近年来,本体技术迅速发展,在许多领域已经出现了相对完善的领域本体,并取得较好应用。然而,在大多领域中也存在着部分缺少实例层知识的本体。而对于领域本体的使用者来说,不仅希望领域本体有丰富完善的Schema层数据,还希望本体中存在大量该领域的实例知识。DBpedia,Wikipedia等关联开放数据(LOD)中存在着大量可用于填充到领域本体中的数据,但是这些LOD数据包含了各个学科领域,直接使用这些LOD数据存在诸多不便。结合上述问题,本文提出将LOD数据填充到现有领域本体中,不仅可以将LOD数据领域化,还丰富了现有领域本体的知识量。同时以金属材料领域为例,抽取LOD中的金属材料领域数据,并添加到现有的金属材料领域本体中。本课题做了以下研究工作:(1)基于领域本体抽取LOD(例如DBpedia)中特定领域数据。使用领域本体,Wikipedia和主题提取算法获得抽取DBpedia中特定领域数据的切入口;改进直接链接子图语义距离算法并设计相似度筛选策略,获得DBpedia中特定领域知识。(2)基于机器学习算法将LOD中特定领域数据添加到领域本体中。首先根据实际问题中的领域本体的填充需求,确定抽取的LOD中特定领域知识的填充数据,根据填充数据生成链式三元组;然后根据使用的机器学习算法设计链式三元组填充特征的转换策略;最后使用该机器学习算法获得每个链式三元组在领域本体中的填充位置。在本文中,分别使用概率图模型算法中的CRF算法和分类算法中的逻辑斯特回归算法、随机森林算法、SVM算法实现链式三元组在领域本体中填充位置的获得。(3)以金属材料领域为研究实例背景,对方法的合理性和有效性进行实验分析和评价。此外,使用时间性能和F1-measure对所设计的领域知识抽取算法、本体填充策略分别进行了实验评价,实验结果表明所设计算法是可行的,并且时间性能是可以接受的。同时,设计原型系统对抽取金属材料知识以及背景知识库进行可视化的展示,并且设计一个填充系统,详细的展示了整个填充过程。