论文部分内容阅读
信息技术的发展使Internet出现了“信息丰富而知识相对匮乏”的问题。由于Internet的开放性及异构性,用户很难快速准确地从WWW上获取所需信息,因此,如何快速有效地提取所需信息是一项重要的研究课题。Web文本挖掘作为一种有效的信息检索技术,在近几年倍受研究者的关注。本文以此为研究重点,主要做了以下工作: (1) 探讨了Web文本挖掘的意义,系统地给出了Web挖掘的定义,对Web挖掘的任务进行了分类,讨论了Web挖掘与传统的数据挖掘、Web信息检索之间的关系。 (2) 系统阐述了Web文本挖掘的工作流程,重点研究了Web文本挖掘的特征表示、文本分类、聚类等相关技术,介绍了文本挖掘的研究课题及应用领域。此外,对Web文本挖掘系统WebMiner进行了系统介绍。 (3) 介绍了概念格的基本理论,探讨并研究了概念格理论在数据处理与分析方面的优势。深入分析了当前搜索系统存在的缺点,在Web文本检索中运用概念格理论挖掘文本中潜在的概念结构及概念间的相互关系,提出了一种基于概念格理论的Web文本检索方法。