个性化新闻推荐引擎中新闻分组聚类技术的研究与实现

来源 :北京邮电大学 | 被引量 : 14次 | 上传用户:xinxinzhang2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,人们每天需要面对海量信息资讯,如何快速从中获得有价值的信息成为亟待解决的问题,而仅仅依靠搜索引擎并不足以使用户能获得高质量的适合于自己的有效信息。为了应对这个挑战,个性化信息推荐成为了近几年来一个热门的研究领域。本文围绕个性化新闻推荐系统在实际应用中的海量数据瓶颈,重点对新闻文本聚类技术进行研究、分析和实现。本文的主要工作如下:首先,本文研究了个性化新闻推荐系统的研究应用现状,由此引出了海量新闻文本聚类问题。对现有的文本聚类相关技术及聚类方案进行了深入研究,分析其技术思想、应用领域及优缺点。然后,为了满足推荐系统实际应用中对可扩展性和效率的要求,本论文采用基于LSH的文本分组聚类算法对新闻文本进行聚类处理;同时,为了满足新闻主题和内容双重相关需求,设计了层次化的文本分组聚类方案,在文本内容特征的基础上,加入文本主题特征表示,对主题特征进行空间转换,以及内容特征和主题特征的加权转换,使其能够应用于LSH分组聚类算法,从而实现了文本聚类过程中文本特征的深度挖掘,保证聚类准确率的同时有效提高了聚类的性能。最后,基于本文提出的新闻分组聚类方案,设计并实现了基于该方案的新闻聚类系统,描述了聚类系统的实现流程、数据库设计和功能模块的设计实现。为了验证系统的可用性、准确性和效率,使用此系统对数据集进行实验,得到层次化结构的新闻分组聚类结果,并将系统聚类的结果和标准的人工分类文本结果进行对比,通过对聚类结果进行评估,验证算法的改进效果。论文主要内容的组织如下:第二章,对个性化新闻推荐引擎进行概述,重点分析了该技术目前面临的性能瓶颈,并引出通过文本聚类技术作为解决方案;第三章对文本聚类技术进行了介绍,分析了几种主要文本聚类算法的原理;第四章,针对新闻推荐系统的特殊需求,提出基于LSH分组聚类算法的新闻文本聚类方案;第五章,介绍了基于该方案的新闻聚类系统的设计与实现;第六章,给出了该系统测试和实验结果,并对实验结果进行了分析。
其他文献
古代两河流域的收养法律不健全,研究收养制度必须依赖于收养契约。古代两河流域的收养关系可以分为收养男性、收养女性和收养奴隶三大类;男性可以被收养为儿子、儿子—学徒、
莫言获得诺贝尔文学奖证明了译者的重要性。译者模式的遴选原则以及翻译策略的理性选择是中国文学"走出去"的关键因素。事实上,汉学家译者模式以及归化式翻译策略理应成为翻
心理现象与物理现象的区别是布伦塔诺哲学心理学体系内在基本线索,而心理现象则是以“表象”和“意向性”为基础的,而具有对对象的能动的指向性。其目的就在于不但要从哲学上
以尾巨桉和马占相思为原料,采用经化学预处理的碱性过氧化氢机械浆(P-RC APMP)制浆工艺对比研究两者的制浆性能。研究结果表明,相同的H2O3用量(4.0%)和NaOH用量(3.5%)条件下,2种原料制得纸
运用微波法合成技术,以丙烯酸(AA)、甲基烯基聚氧乙烯醚(TPEG)为主要原料,制备微波合成超塑化剂(MAS-PC)。通过微波与传统加热体系下竞聚率的计算,解释两种体系下合成聚羧酸
文章探讨了绍兴方言词语构词方面的特点 ,指出绍兴方言中常用的几种构词方法 ,如倒序 (与普通话相应的词语语序相反 )、重叠前缀 +词根、词根 +后缀“头”以及合音合形合义构
南充市城乡基础教育资源配置在人、财、物等方面都呈现出巨大差距,严重影响了教育公平。其主要原因在于"分级办学"的城乡二元教育投资体制下"城市中心"取向的资源配置政策和
采用微波-超声波联合辅助提取法提取黄秋葵中的多糖和黄酮,研究微波提取料液比、微波提取功率、微波提取时间、超声提取乙醇体积分数、超声提取料液比、超声提取功率、超声提
通过在辊压法烟草薄片中加入木浆纤维的方法来提高烟草薄片的抗张强度、柔软度、耐折度和耐机械加工性能。在对原解纤方法、加纤方法分析研究的基础上 ,确定了新的解纤方法及