基于博文分布特征的博客精选技术研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:huaqizhang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客精选技术(Blog Distillation)是一种在大量博客中检索出围绕某个专一主题发表文章的博客的过程。在互联网上,用户往往希望找出一些特别关注某个兴趣的博客,例如篮球,电影,政治选举等等,这些博客所发表的博文往往大部分都集中于一个专一的兴趣或主题上,用户可以通过RSS订阅来关注该博客的更新动态,以获得该领域的知识。博客精选技术可以帮助互联网用户方便的找到志同道合的博客朋友,或找到自己感兴趣的某话题的专家,从而满足自己对该领域了解、学习与交友的需求。基于这个目的,本文重点研究了博客精选技术,并提出了基于博文分布特征的精选方法。与传统方法相比,本文的主要创新工作与成果如下:1)设计并实现了一组基于博文相似度均值的基线实验,并结合博文的召回率-精确率分布曲线,在不浪费系统资源的前提下计算获得最高精确率的最小召回文档数,极大地提高了计算的效率与准确度。同时,该基线实验方案在2009年TREC全球Blog Distillation测试任务中获得了单项指标第一的成绩。2)本文使用博客的博文相似分布为特征,侧重于挖掘特定话题下不同相关度的博客所含博文的分布特点。与传统侧重于挖掘主题与文章关键词之间相关度的方法不同,本文将检索的本质从“主题-关键词”的关系转化为“相关性-分布特征”的关系,更本质的揭露了相关博客的特征,并以此提出了一种质-数曲线,该曲线除了能很好的表征不同类别博客的分布特点外,也直接抽象出了博客的特征向量,本文以此特征向量进行分类识别取得了较高的精确度。3)将类别不平衡问题的研究引入到博客精选技术中。由于本文使用的训练集中类别严重失衡,为了满足机器学习方法获得高精度结果的基本前提——即训练数据与测试数据拥有一致的类别分布,本文对测试数据集的类别分布进行了预测,利用预测结果调整训练集的类别分布,并重新进行训练与测试,结合样本选择以及对测试集大小的限定,本文实验在与2007年TREC Blog测试结果对比下名列前茅。
其他文献
近年来,三维锥束CT在医学和工业上得到越来越广泛的关注,同时锥束投影图像重建算法也在迅速发展。在各种三维锥束重建算法中,滤波反投影算法仍然是一类最常用的重建算法,在医学和
网络的普及和多媒体数字化的广泛应用给人们的工作生活带来极大的便利。但数字多媒体在传播和使用过程中存在很大的安全隐患,很容易被拦截、窃听、复制、篡改、伪造或删除。因
期刊
伴随着通信技术的不断发展,互联网和移动通信越来越多的在互相渗透与融合。终端的智能化发展,以及个人电脑的便携化发展,使得通信的内容更加丰富,而通信的手段也更加多样。随
期刊
立体声编码可以将立体声音频信号压缩,使其所占存储空间与带宽降低,以便高效地存储和传输。与传统的立体声编码技术相比,参数立体声编码可以在不降低音质的前提下,获得更高的
期刊
学位
期刊
期刊