论文部分内容阅读
随着电子商务的兴起,网络客户评论也必然会成为人们购买产品和商家改进自身服务的重要参考,但是如何从海量评论中挖掘出有用信息是一项具有挑战性的工作。产品特征挖掘作为网络评论挖掘的关键技术之一,已成为网络评论挖掘领域的一个重要研究方向。本文给出了一种面向网络评论的产品特征和极性词挖掘方法,目的在于从大量网络客户评论中对产品特征和极性词进行自动化地抽取。本文基于关联规则算法和属性共现度对网络评论中的产品特征进行挖掘,在获取的产品特征集合的基础上,通过句法分析器来提取极性词。主要工作如下:在创建关联规则事务文件过程中建立常用产品特征列表,尽可能地减少中文分词工具对挖掘结果的影响,通过关联规则算法获取名词和名词短语作为候选产品特征集合,并将互信息引入到候选特征的剪枝中,对互信息的计算公式进行了改进,计算候选特征与区分符的互信息值,过滤不满足阈值的候选特征;然后通过极性词挖掘非频繁特征对关联规则算法进行补充,得到更加全面和准确的产品特征。在挖掘得到的产品特征集合的基础上,利用句法分析器形成句法分析树,提取存在SBV依存关系的词对,通过三步剪枝获得最终的极性词集合。本文从大型中文购物网站上选取评论语料,对提出的产品特征和极性词挖掘方法分别进行了验证,实验结果证明了本文方法的有效性。