论文部分内容阅读
企业在Portal上发布与企业相关的信息,使得浏览者迅速找到他所需要的内容。由于Internet的规模与使用的持续增长,大多数的Web结构非常复杂和庞大,导致用户失去查询目标。智能Portal使用Web挖掘方法向用户提供个性化信息。
Web挖掘分为使用挖掘、内容挖掘和结构挖掘。通过Web使用挖掘技术实现个性化的方法有很多,其优点是能自动地获得用户的兴趣爱好和网页间的关联关系,从而做出网页推荐;但对于处理新网页或是还没有被访问过的网页还存在不足,并且它没有充分考虑网页本身的内容和网站整体结构中那些有助于实现个性化的信息。基于此,本文采用内容过滤的个性化方案,基于一个Portal网站,从网页本身和网站结构出发,即综合Web内容和Web结构挖掘技术,对网页按照用户的喜好程度进行分类,向访问Portal网站的不同用户提供他们感兴趣的个性化信息服务,使得门户网站具有智能化功能。
本文对Web内容和结构挖掘技术进行了系统的研究,并在原型系统中采用如下方法:在经典的TF-IDF技术基础上,融入网页标签信息和超链接文本;在使用链接文本表示被链接网页时采用PageRank算法计算链接文本所在网页的权威值,从而确定表示网页时的特征值对应权重大小;采用没有学习过程、并可动态添加训练例的kNN分类器进行分类,用保存训练例路径的方法来减少kNN算法空间复杂度问题;通过链接进行简单的分类,对网页分类方法进行补充;对于评价策略,在传统评价文本分类器的基础上,将精确度与查全率重新定义,采用延迟评价的方法以满足系统的需要。