论文部分内容阅读
随着计算机技术、通信技术和网络技术的迅猛发展,人们现今主要通过网络发表自己对产品的价格、性能和售后等方面发表主观性看法、建议以及意见。这些主观性观点表达了消费者对产品喜爱或是厌恶等情感倾向。消费者在购买产品之前,通常都会在网上查询该产品的相关评论以作参考,但受时间和精力的限制,从海量的评论信息中获取相关信息就变得不甚可行。另外,在实际产品评论中,一种产品可能涉及多篇文档。而目前大多研究者只针对某类产品评论判断一篇文档(句子)所表达产品的整体倾向。如果仅从文档级或句子级进行情感倾向判别,均不能获得人们对产品的多个不同品牌在其性能方面的综合评价。因此,如何有效地,并且最好能自动地对带有情感色彩的主观性多文本进行分析、处理、并对其进行归纳和推理,进而发现和概括相关产品的观点,这就变得非常的重要。本文研究主要细分为以下几方面的工作:(1)基于本体的观点特征的抽取及句子整合。本文利用已建立的领域本体,按照产品性能抽取观点特征以及其评价词。本文不进行分词,直接按照字符的匹配进行抽取。实验表明,该方法比传统的分词后再抽取的结果要好,其F值比之高出55.83%。通过对评价同一对象的句子进行汇总,将评价同一对象的句子看做一个整体来处理,从而将问题转化为传统的文档层面的情感分析问题。对于本体中存在概念之间的关系的观点特征进行整合,将整合后的特征采用一个“核心词”来表示。由于各个性能相关的数据丰富程度不同,整合后的结果之间有较大的差异。“经济性”所包含的特征整合掉的较少,“舒适性”经过整合后,新特征集的规模只有原始特征集的40.87%。(2)按照产品的性能建立非完备的情感信息系统,并以此为基础对特征进行约简。由于本文的数据是一个存在缺失数据的系统,因此最终抽取到的特征构成的是一个非完备的系统。对于信息系统中的特征的特征值,本文主要依据特征其本身的情感倾向值和特征所在句子的情感倾向值这两方面来综合计算。本文获取的观点特征冗余度高,区分度差以及存在缺失数据,必须进行约简优化。本文采用基于差别矩阵的特征约简算法,去掉那些区分能力差且特征值稀疏度高的特征。对于关注度较高的“舒适性”,其约简率为55.32%,约简掉的特征较多,很大程度上提高了评价对象的相似性,降低了冗余度。(3)对各性能方面的非完备信息系统的评价对象进行情感聚类。通过对Web评论文档的聚类,本文可以得到用户对产品评价的整体预览以及产品特性的实际评价状况。本文采用K-means聚类算法,来对各性能方面的非完备信息系统的评价对象进行情感聚类,而聚类结果和普通用户的认知是基本一致的。为了说明本文特征降维的有效性,采用浅层语义分析LSA作为与其比较实验。LSA特征降维可使特征空间发生变化,导致其特征无法解释。在这一部分,本文还从数据结果方面阐述了建立非完备信息系统的必要性。