基于Web的数据挖掘技术研究

被引量 : 0次 | 上传用户:hobbysh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术已经渗透到了社会生活的方方面面,随着因特网在世界范围的迅速发展,越来越多的数据库和信息系统不断加入网络,使得Internet发展为当今世界上门类最全、规模最大的信息库。WWW带给人们全新网络世界的同时,也将网络上的人们置于了一个庞杂的网络迷宫,面对缤纷复杂的Web空间,如何从浩如烟海的网络HTML文档中快速、高效地发掘所需信息便成为人们所关注的一个主要问题,Web数据挖掘是解决这个问题的一个有效手段。 近几年来,Web数据挖掘技术引起了研究人员的关注,低层信息的占有是发掘高层知识的前提,网络信息检索技术便成为目前Web数据挖掘的一个迫切需要深入研究的问题,因此,本文选择Web数据挖掘作为研究对象,重点研究的是基于Web的信息检索技术,对其中的一些相关内容进行了深入研究,旨在研究设计一种性能较好、能捕捉用户兴趣、提高精度的智能信息检索系统,更好的满足用户的需要。 网络上的信息检索技术虽然能够满足用户的部分信息需求,但效果并不理想,往往提供给用户信息的同时,又将用户置于系统提供的巨量信息的汪洋大海之中。目前,该领域的研究热点有多个方面,本文以信息检索模型和系统结构为出发点,在研究现有模型与结构的基础上,找出它们存在的缺点与不足,进行了一定的改进,并通过实验实例进行了分析、论证。 Web信息检索分为全文检索模型和基于内容的检索模型两种,各有其应用的场合与优缺点,其中,基于内容检索模型中的向量空间模型是效果较好、近些年来被广泛应用的一种方法。向量空间模型最大的优点在于知识表示方法上的巨大优势,用N维空间的向量表示文档,用向量之间的夹角表示文档的相似度,从而将文档信息的匹配问题转化为向量空间中的矢量匹配问题,将难以计算的文字量化成很容易计算的实数,使问题的复杂性大大减小。但是,并不能够说目前的向量空间模型是最理想的,本文通过实验证明了VCM表达信息的不精确性。 信息论是C.E.Shannon为了解决信息传递过程问题而建立的理论,能够用信息来消除不确定性。本文在前人研究的基础上,将信息增益引入到VCM权重计算方法TF IDF的整个过程中,形成结合信息增益的TF IDF相似度计算方法、标准确信度计算方法,得到最终的引入了信息增益的文本分类计算方法TF IDF IG。本文通过实验证明,改进以后的方法在兼顾词语在文档集合中分布的数量情况的同时,也考虑了词语在文档集合中分布的比例情况,不仅能够正确的区分相似度的大小关系,还能够较好的捕捉确信度的比例关系。TF IDF IG方法不仅保持了TF IDF方法对文档类别的区别性,而且还能够捕捉到这种区别性的更为详细的比例上的差别,说明在保持计算量基本不变的情况下,改进后比改进前在多个角度多个方面均有所改进,减少了不确定性和模糊性。 山东帅范大学矾上毕业论文 知识求精是知识获取必不可少的步骤,机器学习是使计算机具有智能的有效手段,0_.__。_..__,,_、,__,_,。。_.,_。。_,。。、。,_.、….__。…__._._。。_ 其中,有导师指导的人工神经网络能够以模糊的结构学习较为精确的内容,是将模糊 的知识进行模糊计算和模糊描述的理想方法。词条项与文档类别之间的模糊关系难以 用精确的方法进行精确地描述与计算,模糊的知识用模糊的方法能得到较好的解决, 因此本文将神经网络应用到信息检索模型中,将之与向量空间模型相结合,形成了一 种改进的向量空间模型 VCM ANN。结合模型按照向量空间模型的基本原理进行工作,用 神经网络对标准VCM的不精确知识进行求精,调整信息隐藏于FTART网络的连接权重 中。我们通过实验证明了人工神经方法的计算精度比改进的信息增益方法高,能够有 效地克服信息增益方法不能克服的精确性问题,计算的复杂性也比信息增益方法低, 这说明人工神经元网络方法虽然捕捉的是模糊信息,却能够较为精确的捕捉到文档中 词条项与文档的类别之间的模糊关系。 进入90年代,Agent的研究蓬勃兴起,面向Agent的计算被誉为“软件开发的又 一重大突破”、“软件界的新革命”,有人预测,Agent将是未来十年最重要的计算范型。 本文将Agent技术引入到Web信息检索中,设计了一个基于Agent能够捕捉用户兴趣 的智能检索模型InforMmer,提高信息检索系统的环境性能和客户性能,并对系统中呛 的Agent关系、结构进行了详细介绍。 本文第一章为概论部分,阐述了本文研究的背景、拟做的工作。第二章探讨了数 据挖掘、文本挖掘,以及Web挖掘相关的几个方面。第三章着重研究了基于Web的信 息检索的基本原理、基本方法,将人工神经元网络和信息论成功的用于信息检索的计 算模型中,形成VCM与神经网络、VCM与信息论分别结合的两个模型,通过实验分析、 证
其他文献
代理制是国际贸易领域重要的经营方式,在西方发达国家的对外贸易中广为应用。目前,中国加入WTO在即,更多的企业将走向国际市场,参与国际竞争,代理制将为其架起一座通向国际市场的
本文研究了微电解、高压静电场作用对于不同水样中的不同种类的细菌和蓝藻的杀灭作用,以及微电解作用对于大肠杆菌的生理活性和对于蓝藻细胞内藻胆蛋白的光吸收特性的影响,探讨
根据食品物料电特性进行的电磁处理方法主要有微波加热、高频波加热、通电加热、高压静电处理、高压脉冲电场杀菌、电渗透脱水等。这些方法具有传统方法所不能达到的许多优点
沈从文在中国现代文学史上是一个“异数”。他非常重视作品的形式,对其进行孜孜以求的探索,同时他又把形式看作表达思想内容的工具,在对形式的选择中蕴涵着他不同的思想、心态。
在当前经济全球化的背景下,各国经济往来日益密切,各产业间的合作与交流也逐步加深。农业作为三大产业之一,也开始走向国际化。越南是一个传统的农业国家,农业是其国民经济发
伴随着美术绘画艺术领域的不断发展,人们对版画艺术有了更加深刻的认识,开始学会从多个要素体会版画艺术的内在要素。"符号"是版画艺术最为特殊的构成要素,其不仅造就了独特
唐诗是中国古代丈化典籍中的一朵奇葩,而典故在其中的应用则是唐诗特色之一。因此,在翻译唐诗的过程中,如何处理其中的典故便成为一个为众多翻译者所关注的问题。本文将唐诗中典
互联网增值业务就是基于互联网平台开展的各项增值业务,它的发展将会给社会生活和国民经济的发展带来互联网增值业务的发展将会给社会生活和国民经济的发展带来巨大的影响。互
乳腺癌是女性中最常见的恶性肿瘤之一,是威胁女性健康的一大杀手。乳腺癌的发生与生活习惯密切相关。在欧美国家,乳腺癌发病率位居女性恶性肿瘤首位。在中国,随着人们生活水平的不断提高以及生活方式的改变,乳腺癌的发病率呈逐年上升的趋势,预计2020年我国乳腺癌患者将高达250万人,且患者逐渐趋于年轻化。尽管近年来医疗水平不断提高,对乳腺癌发病机制研究也取得了很大的进展,但是其高发病率、低生存率的特点尚未得到
企业的资本结构与融资方式密不可分。我国上市公司的资产负债率远低于国内非上市国有企业和其它企业平均水平,而且呈稳中趋降的态势。造成这种状况的直接原因在于上市公司在选