基于用户行为分析的网页分类系统的研究与实现

被引量 : 1次 | 上传用户:xinshili100
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着因特网飞速发展,网络上以网页为载体的各种文本信息大量涌现,网上信息量呈爆炸性增长。人们要找到自己所需要的信息犹如大海捞针,被动模式的搜索引擎已经不能满足用户的需求。如何以主动模式满足用户个性化的服务要求,成为新的网络服务系统面临的挑战性课题之一。本文基于用户行为分析和个性化服务的前提,针对网页分类技术中的关键技术进行研究和改进,最终实现了一个适应于网页分类的文本分类系统。本文主要研究的关键技术包括:第一,中文分词技术。本文对原有的分词方法进行研究,并提出了一种适合于网页文本特点的基于统计与最大匹配结合的分词算法,该方法能识别出网页中的新生词汇,且合并频繁出现的单字组合。改进的方法既避免了漏掉对分类有很大贡献的新生词汇,也通过合并单字减小了特征空间维数,降低了计算复杂度。第二,特征抽取和赋权技术。本文通过研究和考察特征选择算法和赋权算法,对普遍认为效果较好的CHI统计方法进行了适合于网页分类的改进,提出了基于网页结构的CHI统计特征选择算法和TD-IDF-CHI赋权算法。实验结果表明,这两种预处理算法在一定程度上提高了分类精度。本文基于以上改进的算法实现了一个网页分类模块,同时也设计并实现了一个完整的用户行为分析系统,该系统主要包括三大模块:数据采集过滤模块、网页分类模块和结果统计模块。三大模块所完成的功能如下:第一,数据采集过滤模块。Web行为的用户属性信息存在于HTTP包的头部,要获得用户的信息就需要对HTTP包进行解析和信息提取。数据采集过滤模块中介绍了本文所设计实现的HTTP包解析的流程。第二,网页分类模块是本文主要的研究对象。该模块基于改进的分词算法、预处理算法和分类效果较好的KNN和SVM分类算法,实现了将网页映射到特定类别的过程。第三,结果统计模块。该模块总结并更新用户访问的网页的分类结果,并与个性化服务系统直接相连,将用户行为分析的结果直接应用于个性化广告反馈等服务中去。本文所研究并实现的基于用户行为分析的网页分类系统适用于网页在线分类和离线分类两种模式,实验结果表明,改进的预处理算法对分类准确度有很好的矫正,结果统计模块的设计也获得了较好的结果,充分反映了用户当前的兴趣,为个性化服务系统的研究提供了参考模型。
其他文献
<正>今年贵阳市将建成并投运八个污水处理厂。其中,小河污水处理厂(二期)、白云污水处理厂、金阳污水处理厂、修文污水处理厂将于6月份投运,新庄污水处理厂、息烽污水处理厂
材料是任何一种设计和制造的物质基础,也是任何一种形式的表现媒介和载体。不同的材料有不同的物理及视觉性质,设计的形式在某种程度上可以说是适应和表现材料的结果。材料与
教师在教学活动中的主导作用决定了教师必须不断提升自己,在学习、探寻、应用、反思等过程中寻找适合自己的教学方法,才能逐渐成为成熟型教师,从而提升教学效果.信息社会要求
Science Direct数据库中与员工离职有关的文献近200篇,通过对其从年代分布、研究的主要内容、对离职影响因素的研究以及采用的研究方法四个方面进行描述性统计分析,结果发现
目的对82例化疗病人行颈内或锁骨下静脉置管术后的导管感染危险因素进行分析。方法对年龄、性别、病种、导管保留时间、导管用药次数、营养药的使用、化疗周期、抗生素的使用
自我评价是自我意识的一种形式,是一个人对自己的身心状况、能力和特点,以及自己所处的地位、与他人及社会关系的认识和评价。Wayment & Taylor认为有三种信息会影响个体的自
暗紫贝母(Fritillaria unibracteata Hisao et K.C.Hsia)为四川重要的道地药材之一,含有多种生物碱、皂苷及人体必需的微量元素,其干燥鳞茎具有清化热痰、润化燥痰、止咳、散
在中国的承重墙体材料中,实心粘土砖仍占据主要地位。它作为传统的墙体材料在中国已有数千年的历史。随着社会的进步,使用实心粘土砖建造房屋不仅浪费大量的粘土资源,而且已
在高层建筑单体规模大、设有超大面积多层地下室和裙房建筑、地下室基础埋深深、基坑占足建筑用地规划红线的项目施工中,为了解决塔吊布置与附着的难题,应用了高桩承台塔吊基
本文利用2006年1月至2008年12月的农业生产资料价格指数、农产品价格指数、食品类工业品出厂价格指数、居民食品消费价格指数等的月度数据,运用VAR模型对农业产业链条价格传