论文部分内容阅读
网络技术已经渗透到了社会生活的方方面面,随着因特网在世界范围的迅速发展,越来越多的数据库和信息系统不断加入网络,使得Internet发展为当今世界上门类最全、规模最大的信息库。WWW带给人们全新网络世界的同时,也将网络上的人们置于了一个庞杂的网络迷宫,面对缤纷复杂的Web空间,如何从浩如烟海的网络HTML文档中快速、高效地发掘所需信息便成为人们所关注的一个主要问题,Web数据挖掘是解决这个问题的一个有效手段。 近几年来,Web数据挖掘技术引起了研究人员的关注,低层信息的占有是发掘高层知识的前提,网络信息检索技术便成为目前Web数据挖掘的一个迫切需要深入研究的问题,因此,本文选择Web数据挖掘作为研究对象,重点研究的是基于Web的信息检索技术,对其中的一些相关内容进行了深入研究,旨在研究设计一种性能较好、能捕捉用户兴趣、提高精度的智能信息检索系统,更好的满足用户的需要。 网络上的信息检索技术虽然能够满足用户的部分信息需求,但效果并不理想,往往提供给用户信息的同时,又将用户置于系统提供的巨量信息的汪洋大海之中。目前,该领域的研究热点有多个方面,本文以信息检索模型和系统结构为出发点,在研究现有模型与结构的基础上,找出它们存在的缺点与不足,进行了一定的改进,并通过实验实例进行了分析、论证。 Web信息检索分为全文检索模型和基于内容的检索模型两种,各有其应用的场合与优缺点,其中,基于内容检索模型中的向量空间模型是效果较好、近些年来被广泛应用的一种方法。向量空间模型最大的优点在于知识表示方法上的巨大优势,用N维空间的向量表示文档,用向量之间的夹角表示文档的相似度,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题,将难以计算的文字量化成很容易计算的实数,使问题的复杂性大大减小。但是,并不能够说目前的向量空间模型是最理想的,本文通过实验证明了VCM表达信息的不精确性。 信息论是C.E.Shannon为了解决信息传递过程问题而建立的理论,能够用信息来消除不确定性。本文在前人研究的基础上,将信息增益引入到VCM权重计算方法TF IDF的整个过程中,形成结合信息增益的TF IDF相似度计算方法、标准确信度计算方法,得到最终的引入了信息增益的文本分类计算方法TF IDF IG。本文通过实验证明,改进以后的方法在兼顾词语在文档集合中分布的数量情况的同时,也考虑了词语在文档集合中分布的比例情况,不仅能够正确的区分相似度的大小关系,还能够较好的捕捉确信度的比例关系。TF IDF IG方法不仅保持了TF IDF方法对文档类别的区别性,而且还能够捕捉到这种区别性的更为详细的比例上的差别,说明在保持计算量基本不变的情况下,改进后比改进前在多个角度多个方面均有所改进,减少了不确定性和模糊性。 山东帅范大学矾上毕业论文 知识求精是知识获取必不可少的步骤,机器学习是使计算机具有智能的有效手段,0_.__。_..__,,_、,__,_,。。_.,_。。_,。。、。,_.、….__。…__._._。。_ 其中,有导师指导的人工神经网络能够以模糊的结构学习较为精确的内容,是将模糊 的知识进行模糊计算和模糊描述的理想方法。词条项与文档类别之间的模糊关系难以 用精确的方法进行精确地描述与计算,模糊的知识用模糊的方法能得到较好的解决, 因此本文将神经网络应用到信息检索模型中,将之与向量空间模型相结合,形成了一 种改进的向量空间模型 VCM ANN。结合模型按照向量空间模型的基本原理进行工作,用 神经网络对标准VCM的不精确知识进行求精,调整信息隐藏于FTART网络的连接权重 中。我们通过实验证明了人工神经方法的计算精度比改进的信息增益方法高,能够有 效地克服信息增益方法不能克服的精确性问题,计算的复杂性也比信息增益方法低, 这说明人工神经元网络方法虽然捕捉的是模糊信息,却能够较为精确的捕捉到文档中 词条项与文档的类别之间的模糊关系。 进入90年代,Agent的研究蓬勃兴起,面向Agent的计算被誉为“软件开发的又 一重大突破”、“软件界的新革命”,有人预测,Agent将是未来十年最重要的计算范型。 本文将Agent技术引入到Web信息检索中,设计了一个基于Agent能够捕捉用户兴趣 的智能检索模型InforMmer,提高信息检索系统的环境性能和客户性能,并对系统中呛 的Agent关系、结构进行了详细介绍。 本文第一章为概论部分,阐述了本文研究的背景、拟做的工作。第二章探讨了数 据挖掘、文本挖掘,以及Web挖掘相关的几个方面。第三章着重研究了基于Web的信 息检索的基本原理、基本方法,将人工神经元网络和信息论成功的用于信息检索的计 算模型中,形成VCM与神经网络、VCM与信息论分别结合的两个模型,通过实验分析、 证