论文部分内容阅读
各种电子商务平台及社交媒体网站的广泛涌现,使得互联网上累积了广大用户关于产品性能及消费体验的海量评价文本数据,这些数据中不仅隐含着用户的消费行为模式,而且隐含着产品性能及商家服务的局限性信息。此类数据的分析与挖掘对于分析用户消费行为,服务电子商务决策,改善营销策略具有重要的现实意义。对文本挖掘而言,经典的单标记监督学习方法已经难以满足多样性文本信息的处理需求。因此,对多标记文本分类方法的研究,以及合理使用多标记学习方法处理各类文本数据,对文本数据挖掘而言,具有重要意义。粗糙集作为一种处理不确定信息的有效工具,该理论在分类规则学习和属性约简方面都取得了很多研究成果。本文以实际应用——网页文档分类和产品评论方面挖掘为背景,基于粗糙集理论对多标记文本的分类方法开展研究,主要内容和结论如下:(1)多标记文本语料的构建与分析本文选取大量网页文档和汽车产品评论数据作为实验语料,对面向主题的网页文档和面向观点挖掘的评论文本所涉及的多标记问题,结合多标记文本挖掘方法,构建中文多标记文本数据集。同时,针对产品评论中的多方面性能评价问题,提出一种基于多标记学习的识别框架。(2)基于稳健模糊粗糙集模型的多标记文本分类为应对多标记数据的不确定性及噪声,提出了一种新的多标记稳健模糊粗糙分类模型。该模型是处理单标记分类问题的k-mean稳健统计量模糊粗糙分类模型的扩展应用。对于每个待分类数据,首先根据文本相似性计算方法,得到其相对于各标记的隶属度;然后根据隶属度定义待分类数据与各标记的相关度;最后为每一组相关度赋予合适的阈值,得到相关的标记集合。在真实多标记文本数据集以及常用多标记评测指标上的实验结果表明,所提模型在多标记网页文本的主题分类问题上,取得了很好的效果。(3)基于粗糙集的链式专属特征多方面识别针对产品评论文本中的多方面性能评价问题,提出一种基于粗糙集的链式专属特征多方面识别方法。该方法以粗糙集理论为基础,通过为每个方面标记提取标记相关的专属特征,构建专属特征分类器链,以多标记分类方法解决多方面识别问题。在新浪汽车评论语料上的实验表明,与多种多标记文本分类方法相比,该方法的方面识别子集准确率可达95%,验证了多标记学习方法在评论文本的多方面性能识别问题中的可行性。