基于Web的评论文本情感分类问题研究

被引量 : 96次 | 上传用户:liuya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络技术的迅猛发展,Internet已成为越来越多的人们获取信息的重要来源,同时,也成为人们表达自己观点的平台。面对迅速增长的网上评论,如何有效地组织承载着大量信息的数据?如何针对特定的需求获取最新的信息?如何区分有用的信息和无用的“垃圾”信息逐渐成为当前信息科学和技术领域面临的一大挑战。文本情感分类是指通过挖掘和分析文本中的立场、观点、看法、情绪等主观信息,对文本的情感倾向做出类别判断。它可以广泛地应用于社会舆情分析、产品在线跟踪与质量评价、影视评价等方面。本论文针对评论文本的情感分类问题,借助于计算语言学、统计学、机器学习等领域的理论与方法,从词、搭配、产品特征与情感词汇关联对等文本表示的不同语言粒度入手,开展文本情感倾向性建模、分析与计算研究,探索文本情感分类的新技术与新方法。本论文主要研究内容及创新点包括:(1)文本情感分类的特征选取方法本文分别从限定特征选取范围、特征的类别区分能力角度,提出了限定词性词语+信息增益、类别区分能力+信息增益、以及基于词频的Fisher判别准则三种特征选择方法。实验结果表明,类别区分能力+信息增益特征选择方法和基于词频的Fisher判别准则特征选择方法优于限定词性词语+信息增益特征选择方法。(2)汉语情感词语搭配的自动获取方法根据情感词语搭配的特点,本文设计了10种情感词语搭配模式,考察了词语之间窗口长度对情感词语搭配的影响,提出了两个词语之间的关联性度量方法,以及基于搭配模式和词语关联性的情感词语搭配获取方法。(3)产品特征与情感词汇关联对的自动识别方法从词性、词间距、依存语法等影响关联对构成的环境信息出发,本文探索了基于最大熵模型的产品特征与情感词语关联对自动识别方法。提出了基于词性信息+词间距信息和基于依存语法信息的两种最大熵模型的特征构造方法,设计了多种复合特征模板,并在多个句子集上进行了对比实验。(4)文本情感分类的多层次语言粒度分析基于低层语言粒度表示高层语言粒度的思想,本文设计了由词汇(搭配或关联对)→句子→文本的分层次文本表示模型。词汇的情感倾向直接影响更高层次语言粒度的情感倾向,鉴于此,提出了基于同义词的词汇情感倾向判别方法,探索了基于词的搭配及关联对情感倾向判别方法。提出了基于加权线性组合的句子及文本的情感分类方法。(5)基于推广粗糙集模型的文本情感分类方法为使粗糙集理论适用于文本情感分类问题,本文推广了经典粗糙集理论中的数据表示模型,提出了带情感倾向强度的文本向量表示模型;基于情感倾向强度序的属性离散化方法,用于对文本表示维数的压缩;构造了赋权粗糙隶属函数,用于文本的情感类别判定。(6)构建了一个面向用户的汽车产品评价系统利用本论文的理论研究成果,开发了一个面向用户的汽车产品评价系统。
其他文献
本文以“体育”“身体自尊”“肥胖”为关键词对2006年以后的文献进行了检索,通过对检索文献题目进行筛选选择了30余篇文献进行摘要阅读,又在30余篇文献中选择15篇与论文题目最
本项研究对青藏高原代表性第四纪湖泊沉积区作了大范围调查,北自柴达木昆特依湖和昆仑山口、南抵江布—林芝,西起甜水海、东至迪庆。据青藏高原地质构造、沉积建造和地貌特点
在当前社会市场经济发展大形势下,企业间的竞争也越来越大,尤其对中小型企业而言,要得以稳定良好发展也越来越困难。在当前中小企业发展过程中,质量管理属于十分重要的内容,
肠毒素大肠杆菌(enterotoxigenic E .coli,简称ETEC)是引起婴幼儿和新生仔猪腹泻的主要病原之一。其致病性决定于它在宿主小肠上皮细胞上的定居能力和产肠毒素的能力。ETEC定
考察奥斯丁布莱克填料部分替代炭黑在轮胎内衬层胶中的应用。结果表明:奥斯丁布莱克填料对胶料的硫化速度有一定影响,对胶料的物理性能和耐热氧老化性能影响不大;添加奥斯丁
模具企业是一典型的面向订单的单件多品种生产型企业,由于订单的随机性和生产过程的不稳定性,使得模具企业管理人员无法及时准确了解模具车间的生产状况,生产过程难以得到有
眼睑下垂是指上眼睑下垂,掩盖部分或全部瞳孔而致不同程度遮挡视力的眼睑疾患。单纯眼睑下垂属重症肌无力中单纯眼肌型的病症。其特点为自始至终仅受累于眼外肌而不累及全身
柯尔克孜族民间史诗《玛纳斯》保留了不少有关古代柯尔克孜人生活的专用名词。本文通过探讨见诸《玛纳斯》史诗居素甫·玛玛依唱本第一部的"乌鲁姆""克热木"两个词的词源,并
目的:确保钾离子正常进入病人的机体,纠正低血钾。方法:选择临床需要静脉补钾的病人50例,随机分为湿敷组和对照组各25例,湿敷组采用酒精纱布湿敷静脉穿刺上方部位,对照组不予
地震数值模拟在地震勘探中具有重要作用。按照原理可分为基于射线理论的射线追踪方法和基于波动理论的波动方程正演。射线追踪在复杂地表、复杂构造中的反射波追踪是一个难点