论文部分内容阅读
目前流行的在线社交网络服务特别是微博客正在改变信息的传播和共享模式。微博服务允许用户轻松的发布和接收消息。推特(Twitter)每天有超过1亿用户发布2.3亿条微博。与其将查询提交给传统的搜索引擎,Twitter用户更愿意登录微博来检索新闻、URL、和好友发布的评论。而微博搜索也已经成为用户获取热点事件信息的重要渠道。针对用户在微博上搜索时主要关注的是热点事件和热点主题,提出了一个新的微博搜索解决方案,该方案能较好的完成主题搜索的任务。首先将微博按其所属主题进行分类,然后在分类后的结果上进行主题-微博两级的索引构建。 基于微博中的标签(Tag)提出了一个新的微博分类方法。首先统计微博中Tag的共现关系,在此基础上利用互信息算出Tag的相似度矩阵。使用聚类算法对Tag进行聚类分析得到若干Tag类别。然后将数据集中带有Tag的微博分配到相应的类中得到微博的类别。使用上述基于Tag构造的微博类别作为训练数据,构造一个微博的分类器,对其余不带Tag的微博进行分类处理,得到最终的微博主题划分(每个类别代表一个主题)。 基于上述的微博主题划分结果构建主题-微博两级索引结构。首先对每一个主题的质心向量构建索引形成主题级别索引,然后对每个主题下的微博进行索引构建。进行结构检索时,先根据用户查询在主题索引中检索相关主题,并对主题进行相关性评分,然后在每个相关主题下检索相关微博,一条微博的最终得分等于该微博所属主题得分乘以该微博在主题内的得分。根据该得分进行排序,并将最终排序结果返回用户。通过在Twitter数据集上的实验与测试,验证了方案的可行性及有效性。根据检索系统的一般评估方法,提出的方法与其它常用的检索方法相比效果有较明显的改善。