基于数据挖掘的网络新闻数据的分析与研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户:zjcmlyj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络的迅速发展,网络新闻的数据规模也在不停增长。如今,移动设备已经大面积普及,新闻生产者采编新闻越来越轻松,新闻消费者阅读新闻时也越来越便利;在日常的新闻生产、新闻消费过程中,产生了大量的数据;研究网络新闻数据的数据挖掘策略具有重要的理论与应用价值。由于网络新闻数据数量巨大,新闻生产者对新闻生产系统的知识挖掘较为困难;而新闻消费者更难以在大量的网络新闻中快速寻找符合自己兴趣的高价值新闻。前者依赖于高效精准的网络新闻主题聚类算法,而后者则依赖于优秀的个性化推荐算法。为此,本文针对网络新闻系统中的生产系统与消费系统,提出了新的数据挖掘与推荐算法,具体包括:1)对于网络新闻文档主题聚类中常见的语义不清、聚类算法无法增量更新等问题,提出了基于LDA主题模型的Single-Pass聚类算法。通过合理利用新闻标题、新闻正文以及新闻线索文档语料库,使用改进的LDA主题聚类策略,结合Single-Pass聚类算法完成增量式更新,提高新闻主题聚类算法的效果。仿真实验表明,该算法可以提高聚类算法的准确率,同时适合增量式更新。2)针对网络新闻推荐系统中,新闻时效性差、个性化推荐计算时冗余旧新闻过多的问题,本文结合文献信息老化模型,在新闻主题聚类结果的基础上,提出了一种推荐算法。先计算新闻发布后的老化率,在协同过滤推荐过程中考虑新闻老化速度,优先推荐高时效性新闻。通过仿真验证,该算法能提高协同过滤推荐算法的效果。
其他文献
目的探讨用无针注射器注射甘精胰岛素对2型糖尿病患者血糖、胰岛素用量及血糖波动的影响。方法选取口服药联合甘精胰岛素治疗效果不佳的2型糖尿病患者50例,随机分为有针组25
近年来,发达国家积极推进专利制度国际化,进行TRIPS协调、《专利法条约》(PLT)协调与《实质性专利法》(SPLT)协调,统一各国专利制度各项内容(统一化进程);进行PCT制度及其改革、相互利
以泰州白马田园农业综合体为例,在乡村振兴战略背景下,结合健康养生、综合场地的现状,通过景观构架、交通路线设计、水体驳岸设计等,分析如何将乡土元素与景观设计相结合,将
目的:研究白芷多糖中单糖的种类和组成比例。方法:以三氟乙酸水解白芷多糖,水解产物中加入盐酸羟胺、吡啶和醋酸酐,衍生化反应生成糖腈乙酸酯衍生物,采用气相色谱法测定白芷多糖的
【正】 元代,诗坛一片沉寂。元诗正统的代表作家,大多是社会地位较高,物质生活优裕的达官显宦,由于脱离现实,脱离人民,自然很难写出深刻反映社会现实的优秀作品。但是在远离
目的探讨核因子κB活化因子受体配体(RANKL)在甲状腺乳头状癌组织的表达及其临床病理意义。方法选取手术治疗的63例甲状腺乳头状癌及23例结节性甲状腺肿标本,用免疫组织化学法
杨树在林业生产中较为常见,具有环境保护与供人观赏等功能。每到暖春季节,杨树就会产生大量的飞絮,不仅会造成严重的环境污染,还会影响人们的日常生活。通过对比有絮杨与无絮
目的:肠易激综合征(IBS)在临床上非常多见,以反复、长期的腹痛、腹胀或者排便异常为主要临床症状,是胃肠道平滑肌功能紊乱而引起的一组临床综合症候群。近年来肠易激综合征逐
为凸显“绿水青山就是金山银山”的生态环保理念,泾源生态建设充分发挥绿化模范县的带头作用,在园林景观绿化中营造不同的植物群落,绿化品种的选择也不再局限于使用当地仅有
二十世纪初,在我国经济发达地区,由民间组织的会计师审计事业,已有过一定程度的发展。中华人民共和国成立后,由于实行公有制为主体的高度集中统一的计划经济,一切经济活动,按