基于数据挖掘的网络新闻数据的分析与研究

来源 :北京邮电大学 | 被引量 : 1次 | 上传用户：zjcmlyj

【摘要】

：

随着网络的迅速发展,网络新闻的数据规模也在不停增长。如今,移动设备已经大面积普及,新闻生产者采编新闻越来越轻松,新闻消费者阅读新闻时也越来越便利;在日常的新闻生产、

【作者】

：

冯文杰

【出处】

：

北京邮电大学

【发表日期】

：

2018年01期

【关键词】

：

时效性模型协同过滤 LDA Single Pass

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络的迅速发展,网络新闻的数据规模也在不停增长。如今,移动设备已经大面积普及,新闻生产者采编新闻越来越轻松,新闻消费者阅读新闻时也越来越便利;在日常的新闻生产、新闻消费过程中,产生了大量的数据;研究网络新闻数据的数据挖掘策略具有重要的理论与应用价值。由于网络新闻数据数量巨大,新闻生产者对新闻生产系统的知识挖掘较为困难;而新闻消费者更难以在大量的网络新闻中快速寻找符合自己兴趣的高价值新闻。前者依赖于高效精准的网络新闻主题聚类算法,而后者则依赖于优秀的个性化推荐算法。为此,本文针对网络新闻系统中的生产系统与消费系统,提出了新的数据挖掘与推荐算法,具体包括:1)对于网络新闻文档主题聚类中常见的语义不清、聚类算法无法增量更新等问题,提出了基于LDA主题模型的Single-Pass聚类算法。通过合理利用新闻标题、新闻正文以及新闻线索文档语料库,使用改进的LDA主题聚类策略,结合Single-Pass聚类算法完成增量式更新,提高新闻主题聚类算法的效果。仿真实验表明,该算法可以提高聚类算法的准确率,同时适合增量式更新。2)针对网络新闻推荐系统中,新闻时效性差、个性化推荐计算时冗余旧新闻过多的问题,本文结合文献信息老化模型,在新闻主题聚类结果的基础上,提出了一种推荐算法。先计算新闻发布后的老化率,在协同过滤推荐过程中考虑新闻老化速度,优先推荐高时效性新闻。通过仿真验证,该算法能提高协同过滤推荐算法的效果。

其他文献

无针注射甘精胰岛素对2型糖尿病患者血糖及胰岛素用量的影响

目的探讨用无针注射器注射甘精胰岛素对2型糖尿病患者血糖、胰岛素用量及血糖波动的影响。方法选取口服药联合甘精胰岛素治疗效果不佳的2型糖尿病患者50例,随机分为有针组25

期刊

无针注射器甘精胰岛素血糖胰岛素用量2型糖尿病

从统一到一体:专利制度国际化进程及其发展趋势研究

近年来，发达国家积极推进专利制度国际化，进行TRIPS协调、《专利法条约》（PLT）协调与《实质性专利法》（SPLT）协调，统一各国专利制度各项内容（统一化进程）；进行PCT制度及其改革、相互利

期刊

专利制度国际化一体化统一化

乡村振兴战略背景下泰州白马田园农业综合体景观规划设计思路探析

以泰州白马田园农业综合体为例,在乡村振兴战略背景下,结合健康养生、综合场地的现状,通过景观构架、交通路线设计、水体驳岸设计等,分析如何将乡土元素与景观设计相结合,将

期刊

乡村振兴战略田园农业综合体景观规划设计

白芷多糖中单糖组成的气相色谱分析

目的：研究白芷多糖中单糖的种类和组成比例。方法：以三氟乙酸水解白芷多糖，水解产物中加入盐酸羟胺、吡啶和醋酸酐，衍生化反应生成糖腈乙酸酯衍生物，采用气相色谱法测定白芷多糖的

期刊

白芷多糖气相色谱单糖组成

“要为苍生说辛苦”——王冕《竹斋诗集》读后

【正】元代,诗坛一片沉寂。元诗正统的代表作家,大多是社会地位较高,物质生活优裕的达官显宦,由于脱离现实,脱离人民,自然很难写出深刻反映社会现实的优秀作品。但是在远离

期刊

《竹斋诗集》统治阶级竹斋诗集

通元法治疗腹泻型肠易激综合证（肝郁乘脾型）临床研究

目的：肠易激综合征(IBS)在临床上非常多见,以反复、长期的腹痛、腹胀或者排便异常为主要临床症状,是胃肠道平滑肌功能紊乱而引起的一组临床综合症候群。近年来肠易激综合征逐

学位

赖氏通元针法温针灸常规针刺腹泻型肠易激综合征肝郁乘脾

宁夏泾源地区园林绿化中宿根、球根类花卉的应用

为凸显“绿水青山就是金山银山”的生态环保理念,泾源生态建设充分发挥绿化模范县的带头作用,在园林景观绿化中营造不同的植物群落,绿化品种的选择也不再局限于使用当地仅有

期刊

泾源宿根球根类花卉引种园林应用

基于数据挖掘的网络新闻数据的分析与研究

其他学术论文