基于内容的博客资源推荐算法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:eagle_19810
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着以博客为代表的网络应用的流行,互联网用户可以更加随意的发布信息和进行交流,互联网上的信息源和信息量变得极大丰富。在这些海量博客数据中,信息的质量或权威程度参差不齐。如何从这些海量博客数据中向用户推荐有价值的权威的信息就成为博客网站和博客搜索引擎面临的一个重要的信息推送问题。在这种背景下,本文对三种博客资源的相关推荐算法进行了研究,主要研究内容包括以下几个方面:  第一,本文在分析了词频统计的博客标签推荐算法的局限性及单一博客领域中存在的垃圾标签问题的基础上,研究基于TFIDF的博客标签推荐及过滤算法,提出了以TFIDF值来代替词频统计进行博客标签推荐,通过构建领域词典来过滤垃圾标签。  第二,本文着眼于博客文章的用户评论,提出基于用户评论情感分析的博客文章推荐算法,同时,针对博客领域中大量出现的新情感词,本文提出新情感词发现算法,用以扩充传统的情感词典,并通过实验来证明新情感词发现算法的有效性。  第三,本文分析了传统的基于链接信息的博客作者推荐算法的缺陷,并根据在博客领域大量出现的文章转载现象,提出了一种基于相似文本链接分析的博客作者推荐算法——SimRank算法。该算法发现了博客作者之间的隐性联系并建立了链接图。最后,本文采用对比实验来表明该算法的优点。  第四,根据本文提出的三个博客资源推荐算法,本文设计并实现了一个博客资源推荐系统对博客标签、博客文章和博客作者这三种博客资源进行推荐,详细讲述了系统的总体架构和各模块的实现细节。运行结果表明本系统具有较高的运行效率和信息推送质量,在实际应用中证明了三个博客资源推荐算法的有效性。
其他文献
随着后PC时代嵌入式系统的广泛应用,一方面嵌入式系统的安全性日渐受到人们的关注,另一方面多核化已成为嵌入式系统的一个重要趋势。而RTEMS作为一款优秀的嵌入式实时操作系
随着企业业务的不断扩展,软件系统变得越来越复杂,越来越多的异构系统被牵连进来,怎样将这些异构复杂的系统集成起来便成为一个问题。企业应用集成提供了底层应用支撑系统间
当代是一个信息爆炸的时代,随着Internet的飞速发展,我们每个人每天都被大量的信息包围着,面对着海量的信息,如何有效管理利用这些信息,使其能更好的为我们服务,是一个非常值
面向服务的计算是一个崭新的分布式计算模型, Web服务是数据和信息集成的有效机制。但是随着Internet上Web服务的快速增长,自动、准确地搜索Web服务已经成为Web服务技术中的
仓储管理系统是现代物流行业的重要组成部分。仓储管理系统主要任务是对仓库中的货物、仓储货位等基本信息进行管理,优化仓库存储的效率,实现仓库中货物的出入操作和存储操作。
医学图像的配准与匹配是计算机辅助治疗的一个关键技术。在现有的医学数据库中,存在的海量数据已经无法让医生在诊断时对所有的图像进行浏览分析,计算机的辅助可以帮助医生减
无线传感器网络,又称感知网,是由大量的、廉价的、体积小的、具有通信能力的传感器节点组成的网络。同步技术是无线传感器网络的重要支撑技术,无线传感网络的许多实际应用都
聋人群体在生产和生活中,不可避免地要在聋人之间、聋人和健听人之间建立联系,手语成为聋人群体参与社会生活借助的主要交流手段。由于手语不是社会中主流的信息传播方式,极
压缩感知理论是近几年来很受欢迎的一种信号采集和处理理论。对于稀疏或可压缩信号,该理论可以以远低于奈奎斯特定理的采样率来进行数据采集,并且可以大概率的准确重构出原始
多基因组序列比对是现代生物信息学研究领域非常重要的核心问题。为了能够比对多种近亲物种之间的多条基因组序列,我们迫切需要一种多基因组序列比对工具。当前基因组序列比