论文部分内容阅读
博客精选技术(Blog Distillation)是一种在大量博客中检索出围绕某个专一主题发表文章的博客的过程。在互联网上,用户往往希望找出一些特别关注某个兴趣的博客,例如篮球,电影,政治选举等等,这些博客所发表的博文往往大部分都集中于一个专一的兴趣或主题上,用户可以通过RSS订阅来关注该博客的更新动态,以获得该领域的知识。博客精选技术可以帮助互联网用户方便的找到志同道合的博客朋友,或找到自己感兴趣的某话题的专家,从而满足自己对该领域了解、学习与交友的需求。基于这个目的,本文重点研究了博客精选技术,并提出了基于博文分布特征的精选方法。与传统方法相比,本文的主要创新工作与成果如下:1)设计并实现了一组基于博文相似度均值的基线实验,并结合博文的召回率-精确率分布曲线,在不浪费系统资源的前提下计算获得最高精确率的最小召回文档数,极大地提高了计算的效率与准确度。同时,该基线实验方案在2009年TREC全球Blog Distillation测试任务中获得了单项指标第一的成绩。2)本文使用博客的博文相似分布为特征,侧重于挖掘特定话题下不同相关度的博客所含博文的分布特点。与传统侧重于挖掘主题与文章关键词之间相关度的方法不同,本文将检索的本质从“主题-关键词”的关系转化为“相关性-分布特征”的关系,更本质的揭露了相关博客的特征,并以此提出了一种质-数曲线,该曲线除了能很好的表征不同类别博客的分布特点外,也直接抽象出了博客的特征向量,本文以此特征向量进行分类识别取得了较高的精确度。3)将类别不平衡问题的研究引入到博客精选技术中。由于本文使用的训练集中类别严重失衡,为了满足机器学习方法获得高精度结果的基本前提——即训练数据与测试数据拥有一致的类别分布,本文对测试数据集的类别分布进行了预测,利用预测结果调整训练集的类别分布,并重新进行训练与测试,结合样本选择以及对测试集大小的限定,本文实验在与2007年TREC Blog测试结果对比下名列前茅。