论文部分内容阅读
随着网络的迅速发展,网络新闻的数据规模也在不停增长。如今,移动设备已经大面积普及,新闻生产者采编新闻越来越轻松,新闻消费者阅读新闻时也越来越便利;在日常的新闻生产、新闻消费过程中,产生了大量的数据;研究网络新闻数据的数据挖掘策略具有重要的理论与应用价值。由于网络新闻数据数量巨大,新闻生产者对新闻生产系统的知识挖掘较为困难;而新闻消费者更难以在大量的网络新闻中快速寻找符合自己兴趣的高价值新闻。前者依赖于高效精准的网络新闻主题聚类算法,而后者则依赖于优秀的个性化推荐算法。为此,本文针对网络新闻系统中的生产系统与消费系统,提出了新的数据挖掘与推荐算法,具体包括:1)对于网络新闻文档主题聚类中常见的语义不清、聚类算法无法增量更新等问题,提出了基于LDA主题模型的Single-Pass聚类算法。通过合理利用新闻标题、新闻正文以及新闻线索文档语料库,使用改进的LDA主题聚类策略,结合Single-Pass聚类算法完成增量式更新,提高新闻主题聚类算法的效果。仿真实验表明,该算法可以提高聚类算法的准确率,同时适合增量式更新。2)针对网络新闻推荐系统中,新闻时效性差、个性化推荐计算时冗余旧新闻过多的问题,本文结合文献信息老化模型,在新闻主题聚类结果的基础上,提出了一种推荐算法。先计算新闻发布后的老化率,在协同过滤推荐过程中考虑新闻老化速度,优先推荐高时效性新闻。通过仿真验证,该算法能提高协同过滤推荐算法的效果。