效用驱动的主题Web挖掘算法研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户：anmy

【摘要】

：

Internet的出现和快速发展，现已成为目前世界上最大的信息资源库。然而面对巨大的Web资源库，用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎虽然在一定程度上满

【作者】

：

杜光芹

【机构】

：

山东师范大学

【出处】

：

山东师范大学

【发表日期】

：

2007年期

【关键词】

：

主题Web挖掘主题爬虫超链接搜索引擎向量空间模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

Internet的出现和快速发展，现已成为目前世界上最大的信息资源库。然而面对巨大的Web资源库，用户若想获得所需要信息已不再是一件简单的事情。通用搜索引擎虽然在一定程度上满足了人们的需要，但由于其通用的性质，仍不能满足不同背景、不同目的和不同时期的Web用户检索的需要，用户从中得到的查询结果往往是一个长长的列表，其中包含了大量重复信息和不相关信息，而要找到想要的信息是一件很困难的事情，因此当要满足一些高级或专业性的信息检索要求时，就需要获得一个面向特定主题(或者特定领域)的全面的Web页面集合，为此，针对主题Web挖掘技术的研究应运而生。通用搜索引擎的局限性在于其试图索引全部Web并且试图服务于涉及所有主题的查询请求，而面对的又是如此巨大的Web资源库，显然心有余而力不足。面向主题的主题爬虫是主题Web挖掘的核心技术，主题爬虫只覆盖与特定领域相关的网页，爬行原则是尽量使爬行相关页面数量最大化，不相关页面数量最小化，这样它可以搜索的更深，搜索的周期可以更短，更能满足用户对获取资源的快速、准确性的要求。本文主要的研究工作是根据爬虫的效用来进行技术分析和研究。在主题搜索中，主题爬虫以何种搜索策略访问Web，提高效率，是主题Web挖掘研究的热点问题之一。而Web的动态性，异构性和复杂性要求主题爬虫能够高效率的实现Web信息提取，保证信息的实时性和有效性。本文的主要工作体现在以下几方面：(1)介绍了通用搜索引擎的基本结构、工作原理、分类及其现状和局限性，分析了主题Web挖掘的研究背景，任务及目前研究技术的进展，探讨了主题爬虫关键技术及其实现要点，并对通用搜索引擎和主题Web挖掘的关系进行了分析。(2)按照评价链接价值所采用方法的不同，对主题Web挖掘中现有的主题爬虫搜索策略进行了分类，系统分析、并比较了它们的特点和优缺点，归纳了提高搜索效率的三个关键因素，考虑到主题Web挖掘对数据实时性、专业性的要求要远远高于通用搜索引擎，提出了一种全新的基于索引页的增量Web信息提取算法，能够高效快速地发现Web上新增加的页面。(3)考虑到基于超链接结构的算法和基于向量空间模型的算法各自的局限性和互补性，对传统的超链接算法进行了改进，提出了一种基于向量空间模型的超链接算法。该算法一方面通过分析网页之间的链接关系得到每篇网页的入度值和出度值，同时另一方面又通过锚文本和超链接上下文等标记文本信息的匹配从而更加客观和准确地作出相关性判断，具有更好的性能。(4)针对目前爬虫效率不高的状况，以主题相关度和高效的爬行策略为核心提出了一套主题爬虫的设计方案，并充分说明了设计方案的可行性，然后对实现进行了详细分析和论证。实验结果表明虽然主题爬虫比普通爬虫耗时，但它也带来了正面效应，使爬行的工作量得到了一定程度的减少，页面一旦进入抛弃队列将不再被处理，而普通爬虫只会没有选择的对所有页面进行处理，而且主题爬虫在搜索的准确性和精确性上都比普通爬虫要好。主题Web挖掘能实现更高的查全率和查准率，能满足一些高级或专业性信息的检索要求，目前主题爬虫技术已成为一个将采集技术与过滤方法结合的新兴方向，也是信息检索领域的研究热点，为Web信息的利用提供了新的解决方案。

其他文献

基于神经网络的图像检索相关反馈机制研究

基于内容的图像检索技术是近年来研究的热点之一,它试图通过提取图像本身固有的视觉信息来表达、识别和理解图像的内容,并按照相似性度量的方法检索图像。但是人对两幅图像的

学位

基于内容的图像检索相关反馈颜色直方图机器学习径向基函数网络

应用于IPv6网络的入侵检测系统的分析与设计

近年来,互联网在国际上得到了迅猛的发展,伴随而来的是我们对网络的依赖性也越来越大,这就使网络的安全问题变得非常重要。随着攻击者对网络系统了解的日趋深入,攻击工具与手

学位

IPv6网络安全入侵检测协议分析

基于机器学习的文本分类算法研究

随着计算机技术、数据库技术、网络技术的飞速发展和Internet的日益普及，在现实生活中，每一个领域都不断产生海量数据和信息，特别是海量的文本数据。如何自动将这些文本数据进行

学位

文本分类朴素贝叶斯支持向量机决策树最近邻ROC曲线下面积

科技项目申报文本辅助检测系统研究与实现

随着国家对科技工作的鼓励及在资金上的大量投入，科技工作者对科研的热情高涨，项目申报的数量也越来越多。然而由于网络的普及与发展，人们获取信息的途径也愈发广阔，这势必会给科

学位

文本结构语义分析科技项目检测技术相似度计算

基于分形的木工平面雕刻图案生成方法的研究

雕刻图案的辅助设计是实现数字化艺术雕刻的最重要环节之一。目前雕刻图案的创作与设计主要依赖于CAD/CAM辅助设计软件的基本图形生成命令与函数来完成,对于复杂雕刻图案的设

学位

分形L-系统IFS递归Bezier曲线木工雕刻图案装饰纹样

协同模板中约束信息可视化方法研究

约束信息是协同模板的重要内涵，是协同设计的基础与流程实现的依据。约束信息可视化研究旨在借鉴协同模板与信息可视化的研究成果，将协同模板中的大量、抽象、动态的约束信息采

学位

协同模板模板设计标记语言可视化映射约束信息可视化协同设计

关节动画中的关键技术研究与实现

作为三维动画的重要组成部分,关节动画在影视制作和计算机游戏等应用领域占据着越来越重要的地位。随着关节动画技术的不断发展,获得真实的人体或动物关节运动已经不是一件十

学位

关节动画关键帧逆向运动学运动重定向

基于OGSA的资源调度的研究

资源调度作为网格中任务与资源之间的一座桥梁，其主要作用在于使得这些任务能够得到最优化的服务以及使得整个网格系统的效率达到最高(例如最大吞吐率等)。由于传统的资源调度

学位

网格OGSA资源调度Min-MinQoS

城市绿地生态环境规划决策支持系统的研究与实现

随着城市化进程的加快，城市人口的增加，城市绿地对改善城市生态环境、促进城市经济持续发展具有越来越重要的作用。城市绿地生态环境规划决策支持系统可以对城市现有绿地的结构

学位

城市绿地专题分析空间数据

一种基于总线技术的服务集成框架的研究与实现

随着信息化技术的快速发展和现代企业规模的不断扩大，大量IT应用系统在企业内部也随之产生，然而这些异构的、独立的、封闭的系统造成彼此之间很难集成，导致系统中出现信息孤岛，难

学位

企业服务总线异构系统集成Web服务遗产系统

效用驱动的主题Web挖掘算法研究

与本文相关的学术论文