论文部分内容阅读
博客(Weblogs,简称“Blog”)是Web2.0的一个重要组成部分,近年来作为一种新兴的大众化新闻发布媒介,越来越受到人们和业界的关注。与传统的网页、Webforum不同,它更注重个性化、分享与互动性:以日记体形式体现,包含明确的时间标签:人们可以在自己的博客发布新闻,阐明自己的真实观点,表达自己的情感;读者可以反馈评论给博主(即,博客作者)进行互动;博主按照系统提供的模板管理博客,如编辑板块、友情链接、感兴趣的博客或参加博客圈子等等。不仅如此,博客之间还互相链接、互相引用构成了一个巨大的博客空间。该空间覆盖面广,实时性强,蕴含着丰富的舆情信息,具有很强的实用价值和学术价值。自2006年以来NIST组织的国际文本评测连续三年举办了博客倾向性检索(Blog Opinion Retrieval)评测。与传统的检索不同,博客倾向性检索的目标是检索出与给定查询既要主题相关又要具有倾向性的博文单元(包含博文和评论两部分)。本文以博客为对象,针对博客的文本结构形式和相关倾向性特征,重点研究博客空间中的倾向性检索问题。本文的主要贡献和创新表现在以下五个方面:
●提出并实现了一种基于机器学习的倾向性检索模型。基于机器学习的倾向性检索模型把倾向性检索过程分成三个分开的步骤:首先检索出给定查询相关的博文并得到主题相关性分数,然后使用分类器对这些与主题相关的博文进行倾向性评分,最后融合二者分数得到最终评分。目前大多数模型直接使用某一类型分类器而没有综合考虑精度和效率。因此我们通过分析比较六种常用分类器精度和性能选择“基于推拉策略的中心分类器”进行倾向性评分,从而提出了一种新的倾向性检索模型。TREC结果表明:该模型取得了检索结果第3、倾向性检索第6(总共20个队)的成绩。同时我们还对该方法进行深入分析,给出该模型的可改进之处,为本文的其它部分提供研究思路。
●研究、分析了倾向性评分处理粒度对博客倾向性检索性能的影响。人们在自己的博客上往往是随意地书写,博文的格式形式多样,因此采用“句子、段落和篇章”来研究与主题相关的倾向性存在一定的不足。我们通过以句子、词块为粒度的划分方法设计四组划分方法对粒度问题进行深入分析比较,从实验角度分析处理粒度对倾向性评分性能的影响,并得到最佳的划分方法和窗口大小。
●提出并实现了一种基于概率推理模型的博客倾向性检索算法。倾向性检索不仅要考虑文档与查询的主题相关性,而且要合理度量整篇文档对查询主题的倾向性评论强弱。倾向性和主题是紧密相关的,不能割裂二者的关系。因而我们通过贝叶斯网络引入主题相关性因素和倾向性因素,把概率推理模型应用于博客倾向性检索中,提出一个基于概率推理模型的博客倾向性检索算法。实验表明,该算法能够有效计算博文中出现的主题描述与查询的主题相关性,合理度量倾向性词描述查询主题的倾向性强弱,并融合二者分数形成最后整体评分,获得较好的结果。同时,算法采用SentiWordNet倾向性词典,无需采集其它网络资源,也不需要训练分类器,效率较高。
●提出一种基于博主背景的倾向性检索归一化策略,并利用该策略归一化基于概率推理模型的博客倾向性检索算法。目前多数博客倾向性检索只是考虑单篇博文的对给定主题的倾向性评论强弱。然而博客是博主情感和观点看法的表达,博主的个人风格背景往往影响着倾向性评论强弱,比如,同样表达对某一事件的赞扬,激进的博主往往用比较夸张的褒义倾向词,而保守的博主则可能用褒义强度比较弱的倾向词。因而在倾向性检索算法中,不能仅仅考虑单篇博文的倾向性评分。我们引入博主背景对基于概率推理模型的博客倾向性检索算法进行归一化,从而更合理地为博文单元进行评分。实验结果表明,基于归一化的博客倾向性检索方法能够更为合理地度量倾向性评分,并能一定程度上提高检索性能。
●通过实例探讨了面向博客的倾向性检索的应用前景。面向博客的倾向性检索是倾向性检索近年来兴起的一个重要分支。目前关于它的许多应用还处于尝试阶段。基于前面的研究成果,从应用本文所探讨的技术角度出发,我们探讨了两个典型应用:大规模舆情分析系统和垂直态度引擎与预测系统,为倾向性检索的应用前景明确了具体方向与目标。