论文部分内容阅读
伴随着互联网技术的快速发展和广泛普及,尤其是Web2.0概念和技术的引入,互联网中产生了海量用户生成内容,其中就包括了电子商务中的产品评论。然而,由于互联网的开放特性以及产品评论带来的巨大经济利益,电子商务中的产品评论中包含大量的虚假评论。仅仅靠人工分析具有很大的难度,因此需要引入数据挖掘中的虚假评论检测技术,对评论的虚假性进行分析。考虑到虚假评论检测存在的数据分布非均衡问题,本研究从非均衡数据分类角度对虚假评论检测进行研究。为此,本研究首先分析了虚假评论检测的背景和研究意义,对虚假评论检测和非均衡数据分类的国内外研究现状进行了系统分析;其次,本研究对虚假评论检测和非均衡数据分类的基础理论进行了系统研究,主要包括虚假评论的概念、虚假评论检测概述、虚假评论检测的难点以及虚假评论检测中的常用特征和虚假评论检测中的常用方法,非均衡数据分类概述和已有的数据层面的非均衡数据分类方法和算法层面的非均衡数据分类方法;然后在此基础上,针对虚假评论检测中存在的数据分布非均衡问题,本研究以支持向量机分类方法为基础,提出了基于支持向量取样的非均衡数据分类方法,并构建了相应的虚假评论检测模型;最后,以电子商务为应用背景,开发了面向电子商务的虚假评论检测原型系统,通过实际应用对模型的有效性和实用性进行了验证。最终表明本研究提出的虚假评论检测模型在电子商务中取得了较好的预测效果。本研究从虚假评论检测中数据分布非均衡问题入手,提出了改进的虚假评论检测方法,丰富和完善了虚假评论检测的研究体系。同时将虚假评论检测模型应用到电子商务中,开发了面向电子商务的虚假评论检测原型系统,为企业解决虚假评论问题提供了解决途径。