论文部分内容阅读
随着大数据时代的来临,面向海量、异构和非结构化数据的分析技术得到越来越广泛的应用。社交商务作为一种新兴的电子商务模式,其融合了社交媒体的社交互动功能与电子商务的商务功能,并且已经成为重要的大数据来源,其蕴含的大量非结构化数据,尤其是文本数据具有极大的商业价值。在这些复杂的文本数据当中隐含着用户的喜好偏向、行为习惯、消费倾向等,对这些文本数据的分析可以很好地为社交商务中的社交购物和社交营销服务。在这种背景下,面向社交商务的大数据分析显得迫切和必要,本文围绕社交商务中的文本数据进行大数据分析。首先,分析了社交商务环境下商务数据的复杂性,其社交商务数据具有典型的大数据特征,并且对社交商务中的非结构化数据进行了分析,重点讨论了社交商务环境下的数据管理以及中文文本数据挖掘过程的复杂性,给出了中文文本数据挖掘的流程。其次,提出了利用Apriori算法抽取产品特征的方法,并应用于社交购物中的产品评论情感分析。在社交商务领域,众多的用户对众多的产品进行了纷繁复杂地评论,这些评论是非结构化的文本数据,复杂的非结构化特征使得用户在查看评论时遇到了很大的困难。基于此,对社交商务环境下的产品评论进行情感挖掘,提出一种利用Apriori算法来挖掘产品的频繁特征,并讨论如何对频繁特征进行剪枝操作以提高抽取的特征的有效性,利用语义词典HowNet来确定情感词的情感倾向。最后,提出了识别电商微博数据进行热点话题的EM-LDA综合模型。电商微博是一种非结构化的文本信息载体,但却具备不同于其他非结构化文本信息的特点,通过对电商微博的分析,提出了一种面向电商微博的EM-LDA综合模型。首先对电商微博依据是否含有哈希标签进行分类,将含有哈希标签的微博称为显式话题微博,并用ET-LDA模型进行主题挖掘;对于不含哈希标签的微博,称为隐式话题微博,通过细分此类微博的类型来改进LDA模型,提出IT-LDA模型。