面向博客的倾向性检索研究

来源 :中国科学院计算技术研究所 | 被引量 : 0次 | 上传用户：KEN_LONG

【摘要】

：

博客(Weblogs，简称“Blog”)是Web2.0的一个重要组成部分，近年来作为一种新兴的大众化新闻发布媒介，越来越受到人们和业界的关注。与传统的网页、Webforum不同，它更注重个性化、

【作者】

：

廖祥文

【机构】

：

中国科学院计算技术研究所

【出处】

：

中国科学院计算技术研究所

【发表日期】

：

2009年期

【关键词】

：

博客倾向性分析倾向性检索数据挖掘内容安全文本结构机器学习

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

博客(Weblogs，简称“Blog”)是Web2.0的一个重要组成部分，近年来作为一种新兴的大众化新闻发布媒介，越来越受到人们和业界的关注。与传统的网页、Webforum不同，它更注重个性化、分享与互动性：以日记体形式体现，包含明确的时间标签：人们可以在自己的博客发布新闻，阐明自己的真实观点，表达自己的情感；读者可以反馈评论给博主(即，博客作者)进行互动；博主按照系统提供的模板管理博客，如编辑板块、友情链接、感兴趣的博客或参加博客圈子等等。不仅如此，博客之间还互相链接、互相引用构成了一个巨大的博客空间。该空间覆盖面广，实时性强，蕴含着丰富的舆情信息，具有很强的实用价值和学术价值。自2006年以来NIST组织的国际文本评测连续三年举办了博客倾向性检索(Blog Opinion Retrieval)评测。与传统的检索不同，博客倾向性检索的目标是检索出与给定查询既要主题相关又要具有倾向性的博文单元(包含博文和评论两部分)。本文以博客为对象，针对博客的文本结构形式和相关倾向性特征，重点研究博客空间中的倾向性检索问题。本文的主要贡献和创新表现在以下五个方面：　　 ●提出并实现了一种基于机器学习的倾向性检索模型。基于机器学习的倾向性检索模型把倾向性检索过程分成三个分开的步骤：首先检索出给定查询相关的博文并得到主题相关性分数，然后使用分类器对这些与主题相关的博文进行倾向性评分，最后融合二者分数得到最终评分。目前大多数模型直接使用某一类型分类器而没有综合考虑精度和效率。因此我们通过分析比较六种常用分类器精度和性能选择“基于推拉策略的中心分类器”进行倾向性评分，从而提出了一种新的倾向性检索模型。TREC结果表明：该模型取得了检索结果第3、倾向性检索第6(总共20个队)的成绩。同时我们还对该方法进行深入分析，给出该模型的可改进之处，为本文的其它部分提供研究思路。　　 ●研究、分析了倾向性评分处理粒度对博客倾向性检索性能的影响。人们在自己的博客上往往是随意地书写，博文的格式形式多样，因此采用“句子、段落和篇章”来研究与主题相关的倾向性存在一定的不足。我们通过以句子、词块为粒度的划分方法设计四组划分方法对粒度问题进行深入分析比较，从实验角度分析处理粒度对倾向性评分性能的影响，并得到最佳的划分方法和窗口大小。　　 ●提出并实现了一种基于概率推理模型的博客倾向性检索算法。倾向性检索不仅要考虑文档与查询的主题相关性，而且要合理度量整篇文档对查询主题的倾向性评论强弱。倾向性和主题是紧密相关的，不能割裂二者的关系。因而我们通过贝叶斯网络引入主题相关性因素和倾向性因素，把概率推理模型应用于博客倾向性检索中，提出一个基于概率推理模型的博客倾向性检索算法。实验表明，该算法能够有效计算博文中出现的主题描述与查询的主题相关性，合理度量倾向性词描述查询主题的倾向性强弱，并融合二者分数形成最后整体评分，获得较好的结果。同时，算法采用SentiWordNet倾向性词典，无需采集其它网络资源，也不需要训练分类器，效率较高。　　 ●提出一种基于博主背景的倾向性检索归一化策略，并利用该策略归一化基于概率推理模型的博客倾向性检索算法。目前多数博客倾向性检索只是考虑单篇博文的对给定主题的倾向性评论强弱。然而博客是博主情感和观点看法的表达，博主的个人风格背景往往影响着倾向性评论强弱，比如，同样表达对某一事件的赞扬，激进的博主往往用比较夸张的褒义倾向词，而保守的博主则可能用褒义强度比较弱的倾向词。因而在倾向性检索算法中，不能仅仅考虑单篇博文的倾向性评分。我们引入博主背景对基于概率推理模型的博客倾向性检索算法进行归一化，从而更合理地为博文单元进行评分。实验结果表明，基于归一化的博客倾向性检索方法能够更为合理地度量倾向性评分，并能一定程度上提高检索性能。　　 ●通过实例探讨了面向博客的倾向性检索的应用前景。面向博客的倾向性检索是倾向性检索近年来兴起的一个重要分支。目前关于它的许多应用还处于尝试阶段。基于前面的研究成果，从应用本文所探讨的技术角度出发，我们探讨了两个典型应用：大规模舆情分析系统和垂直态度引擎与预测系统，为倾向性检索的应用前景明确了具体方向与目标。

其他文献

基于TD的高职《计算机应用基础》教学模式研究

随着以计算机和网络技术为核心的信息社会的到来，不断发展的计算机技术正在深刻的广泛地影响和改变着我们的生活和学习方式。学校的基本职责是培养出具有综合分析问题、解决问

学位

任务驱动式课程设计教学模式高职院校

Skitter与Ark探测架构下AS级拓扑分析及动态核数建模

互联网作为一个典型的复杂网络实例,对其宏观拓扑结构的特征分析及建模研究具有重要意义,受到学术界的广泛关注。近年来人们在该领域的研究取得了长足的进展,尤其是在自治系

学位

AS级Internet拓扑演化分析拓扑建模幂律分布核数

东软e-Sales客户管理系统的设计与实现

本文从东软E-Sales(销售管理系统)的客户管理实际需求出发，以客户为中心，通过讨论如何衡量客户价值、提升客户盈利能力，达到客户长期价值最大化，设计并实现了东软E-Sales客户管理

学位

企业经营客户管理系统软件设计聚类分析

基于区域的图像检索相关技术研究

随着计算机技术、多媒体技术等的飞速发展与广泛应用,数字图像的数量正以惊人的速度增长,如何对这些海量图像数据信息进行合理而高效的管理、组织、分析和检索,正逐渐成为研

学位

基于区域的图像检索特征抽取图像区域分割相似度计算相关反馈

以用户为中心的情境感知应用中建模关键技术研究

以用户为中心的应用构造模式正日益得到关注；WEB2.0的盛行反映了这种以用户为中心的信息服务生产、消费模式的可行性。在普适计算领域，上下文/情境感知应用能够根据不同情境信

学位

普适计算参考模型情境感知不确定性建模应用即时构造服务模型情境中间件

集中身份认证平台的研究与设计

身份认证技术是广泛存在于IT系统及周边环境中的基础支撑技术，用于为资源使用提供有效的身份鉴别机制，从而能够控制对资源的合法有序使用。随着身份认证技术的广泛应用，单一资源

学位

网络安全

MCLP模型在VWSN定位参考点选择中的计算机仿真实现

在WSN实际定位过程中首先面临的问题就是定位参考点的选择问题，然而现有定位研究都集中在定位算法的改进和定位技术的提高两方面，对于定位参考点选择的研究才刚起步，至今尚无一

学位

无线传感器网络定位参考点选址类模型贪婪随机自适应算法计算机仿真

基于事件日志的软件过程挖掘方法研究

“21世纪是软件世纪(Software Century)1”。随着网络和信息技术的飞速发展，作为信息技术载体的软件产品日益渗透到21世纪社会生活的各个领域。一方面，日益增长的软件需求催使

学位

软件过程挖掘数据包络分析时间序列分析事件日志数据挖掘

基于Struts技术的科研业务综合管理系统的设计与实现

本论文是中国国土资源航空物探遥感中心“管理与决策支持系统”-“项目管理”子课题。该单位现有的项目管理系统是Access单机版,该系统无法满足网络化与信息化的需要。本课题

学位

项目管理任务书质量文件勘查类项目RBAC

元建模工具Meta-Modeler的设计与实现

元建模是构造建模语言的过程，用于支持建模语言的开发和演化。元建模离不开元建模工具的支持。元建模工具不仅仅用于建立元模型，还应该能够自动生成针对某种元模型的建模工具。

学位

建模语言元建模工具人机界面代码生成

面向博客的倾向性检索研究

与本文相关的学术论文