面向博客的倾向性检索研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户:KEN_LONG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
博客(Weblogs,简称“Blog”)是Web2.0的一个重要组成部分,近年来作为一种新兴的大众化新闻发布媒介,越来越受到人们和业界的关注。与传统的网页、Webforum不同,它更注重个性化、分享与互动性:以日记体形式体现,包含明确的时间标签:人们可以在自己的博客发布新闻,阐明自己的真实观点,表达自己的情感;读者可以反馈评论给博主(即,博客作者)进行互动;博主按照系统提供的模板管理博客,如编辑板块、友情链接、感兴趣的博客或参加博客圈子等等。不仅如此,博客之间还互相链接、互相引用构成了一个巨大的博客空间。该空间覆盖面广,实时性强,蕴含着丰富的舆情信息,具有很强的实用价值和学术价值。自2006年以来NIST组织的国际文本评测连续三年举办了博客倾向性检索(Blog Opinion Retrieval)评测。与传统的检索不同,博客倾向性检索的目标是检索出与给定查询既要主题相关又要具有倾向性的博文单元(包含博文和评论两部分)。本文以博客为对象,针对博客的文本结构形式和相关倾向性特征,重点研究博客空间中的倾向性检索问题。本文的主要贡献和创新表现在以下五个方面:   ●提出并实现了一种基于机器学习的倾向性检索模型。基于机器学习的倾向性检索模型把倾向性检索过程分成三个分开的步骤:首先检索出给定查询相关的博文并得到主题相关性分数,然后使用分类器对这些与主题相关的博文进行倾向性评分,最后融合二者分数得到最终评分。目前大多数模型直接使用某一类型分类器而没有综合考虑精度和效率。因此我们通过分析比较六种常用分类器精度和性能选择“基于推拉策略的中心分类器”进行倾向性评分,从而提出了一种新的倾向性检索模型。TREC结果表明:该模型取得了检索结果第3、倾向性检索第6(总共20个队)的成绩。同时我们还对该方法进行深入分析,给出该模型的可改进之处,为本文的其它部分提供研究思路。   ●研究、分析了倾向性评分处理粒度对博客倾向性检索性能的影响。人们在自己的博客上往往是随意地书写,博文的格式形式多样,因此采用“句子、段落和篇章”来研究与主题相关的倾向性存在一定的不足。我们通过以句子、词块为粒度的划分方法设计四组划分方法对粒度问题进行深入分析比较,从实验角度分析处理粒度对倾向性评分性能的影响,并得到最佳的划分方法和窗口大小。   ●提出并实现了一种基于概率推理模型的博客倾向性检索算法。倾向性检索不仅要考虑文档与查询的主题相关性,而且要合理度量整篇文档对查询主题的倾向性评论强弱。倾向性和主题是紧密相关的,不能割裂二者的关系。因而我们通过贝叶斯网络引入主题相关性因素和倾向性因素,把概率推理模型应用于博客倾向性检索中,提出一个基于概率推理模型的博客倾向性检索算法。实验表明,该算法能够有效计算博文中出现的主题描述与查询的主题相关性,合理度量倾向性词描述查询主题的倾向性强弱,并融合二者分数形成最后整体评分,获得较好的结果。同时,算法采用SentiWordNet倾向性词典,无需采集其它网络资源,也不需要训练分类器,效率较高。   ●提出一种基于博主背景的倾向性检索归一化策略,并利用该策略归一化基于概率推理模型的博客倾向性检索算法。目前多数博客倾向性检索只是考虑单篇博文的对给定主题的倾向性评论强弱。然而博客是博主情感和观点看法的表达,博主的个人风格背景往往影响着倾向性评论强弱,比如,同样表达对某一事件的赞扬,激进的博主往往用比较夸张的褒义倾向词,而保守的博主则可能用褒义强度比较弱的倾向词。因而在倾向性检索算法中,不能仅仅考虑单篇博文的倾向性评分。我们引入博主背景对基于概率推理模型的博客倾向性检索算法进行归一化,从而更合理地为博文单元进行评分。实验结果表明,基于归一化的博客倾向性检索方法能够更为合理地度量倾向性评分,并能一定程度上提高检索性能。   ●通过实例探讨了面向博客的倾向性检索的应用前景。面向博客的倾向性检索是倾向性检索近年来兴起的一个重要分支。目前关于它的许多应用还处于尝试阶段。基于前面的研究成果,从应用本文所探讨的技术角度出发,我们探讨了两个典型应用:大规模舆情分析系统和垂直态度引擎与预测系统,为倾向性检索的应用前景明确了具体方向与目标。
其他文献
随着以计算机和网络技术为核心的信息社会的到来,不断发展的计算机技术正在深刻的广泛地影响和改变着我们的生活和学习方式。学校的基本职责是培养出具有综合分析问题、解决问
互联网作为一个典型的复杂网络实例,对其宏观拓扑结构的特征分析及建模研究具有重要意义,受到学术界的广泛关注。近年来人们在该领域的研究取得了长足的进展,尤其是在自治系
本文从东软E-Sales(销售管理系统)的客户管理实际需求出发,以客户为中心,通过讨论如何衡量客户价值、提升客户盈利能力,达到客户长期价值最大化,设计并实现了东软E-Sales客户管理
随着计算机技术、多媒体技术等的飞速发展与广泛应用,数字图像的数量正以惊人的速度增长,如何对这些海量图像数据信息进行合理而高效的管理、组织、分析和检索,正逐渐成为研
以用户为中心的应用构造模式正日益得到关注;WEB2.0的盛行反映了这种以用户为中心的信息服务生产、消费模式的可行性。在普适计算领域,上下文/情境感知应用能够根据不同情境信
身份认证技术是广泛存在于IT系统及周边环境中的基础支撑技术,用于为资源使用提供有效的身份鉴别机制,从而能够控制对资源的合法有序使用。随着身份认证技术的广泛应用,单一资源
学位
在WSN实际定位过程中首先面临的问题就是定位参考点的选择问题,然而现有定位研究都集中在定位算法的改进和定位技术的提高两方面,对于定位参考点选择的研究才刚起步,至今尚无一
“21世纪是软件世纪(Software Century)1”。随着网络和信息技术的飞速发展,作为信息技术载体的软件产品日益渗透到21世纪社会生活的各个领域。一方面,日益增长的软件需求催使
本论文是中国国土资源航空物探遥感中心“管理与决策支持系统”-“项目管理”子课题。该单位现有的项目管理系统是Access单机版,该系统无法满足网络化与信息化的需要。本课题
元建模是构造建模语言的过程,用于支持建模语言的开发和演化。元建模离不开元建模工具的支持。元建模工具不仅仅用于建立元模型,还应该能够自动生成针对某种元模型的建模工具。