论文部分内容阅读
基于互联网发展起来的电子商务引领了消费的新潮流,致使网络中产品评论数据骤然增长,由于这些消费者评论中包含用户对产品功能属性、部件属性等有价值的评价信息,因此产品属性挖掘技术应运而生。目前已有产品属性挖掘技总结为人工定义和机器自动识别两种。人工定义的方法,是由领域专家归纳总结出属性,方法虽然很准确,但只能针对该领域进行产品属性提取,没有通用性,可移植性不强,无监督的机器自动识别方法,主要是利用自然语言处理技术,但会增加品属性的冗余度,降低准确率。本文针对以上研究存在的不足,以电子商务网站中的产品评论信息为研究对象,提出并实现了一种基于词性模板的产品属性挖掘方法,并将该方法针对复杂观点句加以改进。第一,通过分析电子商务网站的标签规则,爬取消费者产品评论,建立原始评论数据库,得到产品属性挖掘的数据语料库;第二,通过分句处理、词性标注对产品评论进行预处理;第三,深入分析已完成词性序列标注的产品评论,利用词性模板进行特征归类,最终得到“候选产品评论”、“无属性评论”、“无观点评论”、“非候选标签”四类词性序列特征;第四,通过窗口临近原则,比较属性值距属性的距离向量大小,识别出候选产品评论的属性和属性值,得到正确的搭配关系;第五,对识别出的属性进行置信度计算,置信度越高是正确属性的准确率越大;第六,通过设置停用词,进一步降低地候选产品属性的冗余度,提高属性识别的准确度。本文对识别出的产品属性的应用进行研究,首先,从消费者的角度出发,通过识别出的属性以及属性占比可得出产品最受消费者关注的热门属性,已达到帮助潜在消费者做出购买决策的目的;其次,从企业的角度出发,通过从已成交的消费者评论中识别出的产品属性,明确该类产品的优势属性和劣势属性,从而帮助企业改进产品、提高质量,及时修复潜在可能恶化的客户关系。再次,从运营商的角度出发,通过识别出第三方电子商务网站的属性,可提高客户对电商网站的依赖性,增加电商网站的用户群。本文的主要研究贡献:第一,通过改进属性提取分类器架构,与基于名词词性模板得到候选产品评论的方法相比,提高了候选产品评论的有效度;第二,基于COAE2009提供的数据包,对词性模板窗口阈值设置进行分析,选取合适窗口值,降低候选产品属性冗余度;第三,新增置信度计算模块,根据属性在文本中上下文的信息、频率等特征,进行置信度计算,提高品属性识别的准确度;第四,对识别出的产品属性的应用进行研究,提高了产品属性挖掘的研究价值。