论文部分内容阅读
身处一个高速发展的信息时代,随着互联网的日渐普及,信息载体的日益增多,使得大量的无关信息充斥着人们的眼球;面对信息量的爆炸式增长,单纯的依靠人工筛选价值信息已经不太现实。然而信息时代的人们对于信息的渴求度又是十分强烈的,如何从这些繁多的信息量中选取出用户感兴趣的价值信息,满足他们的信息效率需求,已经是当今研究的重要课题。这些都推动了信息抽取研究工作的进行,目前,抽取工具已经成为了人们日常生活中不可缺少的好帮手,信息抽取技术也是在日渐不断完善的过程中。而现在信息量的大幅增长主要就是依靠互联网这个载体,但是由于网上信息资源的异质性和缺乏统一的结构组织,使得大规模的网络信息的浏览和抽取都受到一定程度的限制,于是将信息抽取技术应用于互联网作为缓解这种局面的一种有效途径而出现,相对于维护费用昂贵的精密网络挖掘程序,网络信息抽取技术一直致力于自动地将输入页面转化为统一的结构化数据。因此,本文采用网络信息抽取技术来对所需信息项进行筛选,构建研究领域的参照模型,据此设计信息抽取系统完成对目标网页的抽取。将本体引入网络信息抽取技术中,是本文研究的中心思想。本体作为一种规范性的概念关系描述,在形成模型标准的时候,具有与生俱来的优势,可以对研究领域内相关概念关系进行集约化处理,从而给出领域内目标信息框架,更加合理地对样本信息执行抽取操作。本体模型作为本文抽取过程中有力的工具,通过一个专业化的构建过程,在其全面性和互通性上可以达到令人满意的程度,使得信息抽取工作对于网页结构的依赖性较少。通过本体展示的领域内相关描述,结合样本实例,这两者是本文信息抽取所必不可少的依据。本文的目标信息源来自个人站点网页,结合自身的学术背景,以学者个人站点作为数据源,来设计本文的信息抽取系统。首先,本文对于个人站点、本体、信息抽取的知识进行了简单介绍;然后对比分析个人网站的结构特征,又结合本体的特质,确定将本体模型引入到本文的网络信息抽取技术中,使得本文的抽取策略成为可能。本文的研究重点是设计适用于抽取个人网站信息的本体模型,利用本体开发工具完成进行开发,还包括本体的检测推理以及存储这些后期工程。之后结合本体模型,构建抽取规则,利用信息抽取算法实现对网页信息的有效筛选。系统界面的简单化设计更易上手,用户可以根据自己的兴趣需要,对目标个人站点进行信息抽取,从中可以清楚的看到各个信息项的清晰描述。其中,设计本体和信息抽取规则是本文的核心内容。将基于本体的信息抽取方法与其他方法相比,对同一领域而言,可以由领域专家来定义域内的概念、关系、层次结构、概念关系间的约束等,并根据这些来生成抽取规则,之后将规则作为抽取输入文档的标准。理论上足够强大的领域本体可以使该领域的信息抽取达到很高的抽取精准度,本文的研究对提高信息抽取完备率、准确率具有一定的意义。