基于关联开放数据的本体填充研究

来源 :河北科技大学 | 被引量 : 0次 | 上传用户:luxintian
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,本体技术迅速发展,在许多领域已经出现了相对完善的领域本体,并取得较好应用。然而,在大多领域中也存在着部分缺少实例层知识的本体。而对于领域本体的使用者来说,不仅希望领域本体有丰富完善的Schema层数据,还希望本体中存在大量该领域的实例知识。DBpedia,Wikipedia等关联开放数据(LOD)中存在着大量可用于填充到领域本体中的数据,但是这些LOD数据包含了各个学科领域,直接使用这些LOD数据存在诸多不便。结合上述问题,本文提出将LOD数据填充到现有领域本体中,不仅可以将LOD数据领域化,还丰富了现有领域本体的知识量。同时以金属材料领域为例,抽取LOD中的金属材料领域数据,并添加到现有的金属材料领域本体中。本课题做了以下研究工作:(1)基于领域本体抽取LOD(例如DBpedia)中特定领域数据。使用领域本体,Wikipedia和主题提取算法获得抽取DBpedia中特定领域数据的切入口;改进直接链接子图语义距离算法并设计相似度筛选策略,获得DBpedia中特定领域知识。(2)基于机器学习算法将LOD中特定领域数据添加到领域本体中。首先根据实际问题中的领域本体的填充需求,确定抽取的LOD中特定领域知识的填充数据,根据填充数据生成链式三元组;然后根据使用的机器学习算法设计链式三元组填充特征的转换策略;最后使用该机器学习算法获得每个链式三元组在领域本体中的填充位置。在本文中,分别使用概率图模型算法中的CRF算法和分类算法中的逻辑斯特回归算法、随机森林算法、SVM算法实现链式三元组在领域本体中填充位置的获得。(3)以金属材料领域为研究实例背景,对方法的合理性和有效性进行实验分析和评价。此外,使用时间性能和F1-measure对所设计的领域知识抽取算法、本体填充策略分别进行了实验评价,实验结果表明所设计算法是可行的,并且时间性能是可以接受的。同时,设计原型系统对抽取金属材料知识以及背景知识库进行可视化的展示,并且设计一个填充系统,详细的展示了整个填充过程。
其他文献
随着互联网与计算机技术的高速发展,集分布式与网络存储等技术于一身的云计算技术逐渐成为信息技术研究领域的焦点。云计算技术因众多优势而被广泛应用,但同时带来了各种各样
本文基于"语码转换的顺应性模式",选取广播语料、公共场所和生活语料作为分析文本,试图对上海话与普通话之间的语码转换现象进行深入剖析,并揭示现象背后的各种动机和原因。
随着综合国力的不断增强,中国赢得了世界越来越多的关注,与外界的联系也日益密切,中国文化“走出去”显得愈加迫切。顺应这一形势诉求,上海外国语大学“跨文化研究中心”组织
随着Java多线程技术的普及和完善,并行程序设计技术正逐渐成熟的运用在多核处理器和众核处理器的方方面面。然而在并行程序设计编程模式中,线程安全问题使程序开发人员面临着
台词是一部电影成功的关键,也是一部电影能否成为经典的重要因素之一。本文从电影《一代宗师》的台词入手,分析了这部电影台词中所体现的武学精神和人文情怀,并从台词中去体
文章分析了地区110kV电网网架发展中的主要问题,根据目前网架结构和供电设备存在的薄弱环节,提出了应对措施。
近年来,随着现代化经济水平的不断提高,工业化进程不断加快,环境污染问题日益加剧,社会对环境保护工作的要求越来越高。绿色环保的管理理念以及节能减排的社会发展趋势已经逐
天津严格控制新建燃煤电厂,在煤锅炉治理中,中心城区、滨海新区及环城四区建成区不再新建、扩建燃煤供热锅炉房,预计到2020年建成区建成基本无燃煤区。为了更快推进煤改燃计
随着翻译服务行业需求量不断扩大,复杂程度不断加深,团队翻译逐渐成为新形势下的主要翻译形式。翻译项目管理是保障质量和效率的重要手段,而质量、成本和时间作为项目管理的