论文部分内容阅读
情感分析是对文本中的观点、情感和主观性的计算处理过程。基于特征的用户评论情感分析是情感分析领域近几年出现的一个研究热点,它主要面向产品的用户评论,进行产品特征提取、情感词提取和情感分类等方面的研究。为了更加准确、灵活地提取产品特征,本文提出一种新的基于树形结构的算法框架。该算法框架充分结合底层算法和树形结构信息,在较好地提高产品特征提取效果的同时,具有较高的参数灵活性。基于树形结构的产品特征提取算法将现有产品特征提取算法当做底层算法,通过评论网站上的树形结构信息指导产品特征的提取。其中,算法首先采用关联规则挖掘作为底层算法,用户评论经过预处理操作后生成事务文件,使用关联规则挖掘算法挖掘频繁产品特征,得到候选产品特征。候选产品特征经过一系列剪枝操作,最后得到产品特征。然后,算法引入树形结构信息,并使用该信息指导产品特征提取。在线评论网站为了方便用户快速定位到目标产品,通常会将产品信息进行分类,这样就形成了一颗产品树。其中,每个非叶子节点代表一个产品分类,叶子节点表示具体产品。在产品树中,深度越大,产品分类越细,同一个父亲节点下的产品联系越紧密,相似性越高。本文发现用户倾向于使用相似的词语描述相似的产品,使用不同的词语描述不同的产品。基于树形结构的产品特征提取算法正是基于这一现象,通过给目标节点的邻居节点设定不同的权重,指导目标节点的产品特征提取过程。权重的设置依据叶子节点在树中的距离确定,距离越大,权重越小,对目标节点的影响越小,反之亦然。最后,算法通过特征排序,输出最终的产品特征。实验结果表明,基于树形结构的产品特征提取算法在保证准确率的前提下,显著地提高了召回率。同时,实验发现不同的参数设置,对结果产生了不同的效果,因此,可以根据实际需求的不同,合理地选择不同的参数,算法的灵活性较高。