基于Web内容和结构挖掘的智能Portal

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:baronsong2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
企业在Portal上发布与企业相关的信息,使得浏览者迅速找到他所需要的内容。由于Internet的规模与使用的持续增长,大多数的Web结构非常复杂和庞大,导致用户失去查询目标。智能Portal使用Web挖掘方法向用户提供个性化信息。 Web挖掘分为使用挖掘、内容挖掘和结构挖掘。通过Web使用挖掘技术实现个性化的方法有很多,其优点是能自动地获得用户的兴趣爱好和网页间的关联关系,从而做出网页推荐;但对于处理新网页或是还没有被访问过的网页还存在不足,并且它没有充分考虑网页本身的内容和网站整体结构中那些有助于实现个性化的信息。基于此,本文采用内容过滤的个性化方案,基于一个Portal网站,从网页本身和网站结构出发,即综合Web内容和Web结构挖掘技术,对网页按照用户的喜好程度进行分类,向访问Portal网站的不同用户提供他们感兴趣的个性化信息服务,使得门户网站具有智能化功能。 本文对Web内容和结构挖掘技术进行了系统的研究,并在原型系统中采用如下方法:在经典的TF-IDF技术基础上,融入网页标签信息和超链接文本;在使用链接文本表示被链接网页时采用PageRank算法计算链接文本所在网页的权威值,从而确定表示网页时的特征值对应权重大小;采用没有学习过程、并可动态添加训练例的kNN分类器进行分类,用保存训练例路径的方法来减少kNN算法空间复杂度问题;通过链接进行简单的分类,对网页分类方法进行补充;对于评价策略,在传统评价文本分类器的基础上,将精确度与查全率重新定义,采用延迟评价的方法以满足系统的需要。
其他文献
数据库技术发展迅速且得到了广泛应用,但在20世纪末,一种新的应用模型却对它提出了有力的挑战。这种名为流数据的应用模型广泛出现在众多领域,例如金融应用、网络监视、通信数据
随着软件工程普及,软件工程环境的重要性也日益显现。软件工程环境是软件工程学的组成部分,也是软件工程化的重要基础。在软件开发中,无论技术活动还是管理活动,都离不开环境的支
几何自动推理是让计算机模拟人脑来进行几何命题的证明,它是人工智能领域的重要研究课题。20世纪70年代,吴文俊先生就提出了定理机器证明的方法;随后,张景中院士在面积法的基础上
随着网络技术的迅速发展,网络安全在计算机网络中的应用起着越来越重要的作用。本文的工作主要是围绕着自适应智能防火墙体系结构的设计和仿真展开的,主要包括以下几个内容:
分布式虚拟现实中的虚拟环境是一个可以提供给参与者进行协同,以及共享物体的虚拟现实空间,在这种环境中参与者可以有很强的沉浸感,是目前的研究热点。这种技术已经在游戏,军
计算机网络时代,快捷廉价的数字传输手段为人们获取和交流信息带来了极大便利:然而,全透明的网络信息却又极易为非法分子盗版和篡改。作为数字产品版权保护和信息安全维护的
随着网络的迅速发展和普及,分布式计算的研究在90年代后达到了高潮,目前,在Internet网上分布式计算已非常流行。分布式计算研究主要集中在分布式操作系统研究和分布式计算环境研
基于内容的图像检索是近年来的热门研究内容,涉及图像处理、计算机视觉和数据库系统等方面的学科。其中,有效的高维索引机制是使大规模图像库的检索能够达到实时性要求的关键技
学位
随着企业业务的发展,数据库中慢慢积累了大量的客户历史消费数据,如何从这些海量数据资源中发现对企业有价值的信息,成为企业将来市场决策的一个重要部分。数据挖掘技术因而被逐