论文部分内容阅读
互联网的发展使得用户生成内容大量增长,其中就包括文本数据。这些文本数据中包含了大量有价值的信息,尽管人们可以理解文本数据,文本数据的数量超过了人力能够处理的上限,为了充分利用这些信息,人们需要诉诸于能够自动挖掘这些信息的方法。文本挖掘正是这种方法,许多文本挖掘研究被提出,这使得文本挖掘技术得到快速发展。然而,在一些更复杂的场景中,仍然存在现有研究难以解决的问题。本文结合多属性决策方法,从算法和应用角度解决了文本挖掘中的两个复杂决策问题。这两个问题包括:第一是文本分类中的关键算法选择问题。文本数据的种类多样化与容量海量使得单一的算法评价体系与简单的应用已经无法满足需求。文本分类也面临着同样的状况。文本分类作为文本挖掘中最重要的方法之一,经过了长时间的发展,已经诞生了非常多的方法。在使用文本分类解决某些问题时,首先需要选择合适的文本分类方法。这就需要对文本分类方法进行评价,而这些方法的评价通常涉及不止一个评价指标,这些指标反映的是算法性能的不同方面,一个算法很难在所有评价指标表现最优,仅使用任何一种评价指标来完全衡量一个算法的好坏是有偏的,这使得文本分类中的算法选择成为了一个复杂的决策问题。尤其是在小样本的文本分类问题中,由于文本分类的高维特性,文本分类关键算法除了要保证算法表现外,其稳定性也是重要的衡量标准。第二是基于文本挖掘的产品排名问题。通过产品排名,企业可以确定产品地位,决定定价和竞争策略;消费者可以将排名作为参考指导购物决策。尽管已有少量学者提出了基于文本挖掘方法与在线评论的产品排名方法,能够在人为参与较少的情况下实现产品排名,且这种方法往往比传统方法更具扩展性。它们的思路如下:首先基于在线评论进行文本挖掘得到消费者对产品属性情感方向,再基于情感方向生成产品属性评分,最后使用多属性决策对产品进行综合评分从而得到产品排名。然而,现有方法没有考虑多个平台的评论内容,仅基于单个平台分析的产品排名只能代表一个平台的消费者意见。而来自于不同平台产品评论生成的产品排名不同,用单个平台来反映产品市场口碑是有偏的。为了解决上述问题,我们引入多属性决策方法以及其模糊群决策形式作为解决方案,分别解决了算法评价中的多属性决策问题以及产品排名中的多平台集成问题。针对第一个问题,本文测试了不同的多属性决策方法在评价文本分类关键算法中的效果,然后分析了这些关键算法在小样本文本分类问题中的规律性。针对第二个问题,我们提出了多平台的产品排名方法,能够使用多属性群决策方法对多个平台的评论内容进行集成再基于模糊多属性决策方法生成产品排名。具体的研究内容和相关结论如下:(1)首先,我们使用多属性决策方法解决了文本分类关键算法的评价问题。具体包括以下两个问题:第一,小样本文本分类中的特征选择方法的评价涉及多个指标;第二,在传统文本分类流程中,需要同时选择特征选择方法、特征的数量与分类器。实验结果表明,多属性决策方法能够有效解决这两个问题。除此之外,我们根据实验结果,找到了特征选择方法与分类器表现的一些规律,对后人面对类似问题时能够提供一定的参考。(2)针对基于文本挖掘的产品排名研究没有考虑多个平台的问题,提出了一种基于多属性决策的多平台产品排名方法,该方法能够将不同平台的评论内容进行集成,将评论内容转化为可以用于评价产品市场口碑排名的决策矩阵,相比于单个平台,提供更能反映整个市场观点的产品排名结果。另外,在我们提出的排名方法的基础上,我们提出了产品属性改进的优先级生成方法。实验结果证明了本文提出的多平台产品排名方法和产品属性改进优先级生成方法的有效性。基于我们的再手机市场上的实验分析,我们对不同的手机品牌提出了产品改进和营销方面的建议。(3)针对我们提出的产品排名方法只能集成具有完整产品和属性信息的平台的评论的问题,我们对(2)中的方法进行了一定程度的拓展,能够有效处理具有缺失值的决策矩阵,在有缺失值的情况下进行不同平台的集成,相比(2)中提出的方法,更具有一般性,且对于其他具有缺失值的群决策问题,也有一定的参考价值。通过引入有缺失值的平台评论,我们的实验结果表明,我们的方法能够有效集成这些有评论缺失的平台的内容。(4)针对不同平台对产品的市场口碑排名具有差异的情况,我们分析了造成这种差异的原因,据此对平台和商家提出了提高产品市场口碑的建议。其中,原因主要从两个方面来分析,评论的格式与平台运营模式。我们通过对比保留与去掉不同格式的评论内容生成的产品市场口碑排名是否会有差异来判断评论格式对市场口碑排序是否有影响。结果表明,对格式的操作并没有产生明显的排序变化,排除了评论格式的影响。之后,我们根据不同平台运营模式的差别的讨论,认为运营模式可能是造成产品排名存在差别的原因。针对这一点,我们对平台和商家都提出了一定程度的建议。过去,人们很少用多属性决策方法来解决文本分类中的复杂决策问题,我们的研究弥补了这个缺憾。在方法评价上,我们找到了文本分类方法表现的一些规律,能够给予其他研究者在类似问题上一定程度的参考;在产品排名上,我们提出的方法是较少的将多个平台的评论内容一起考虑的的文章,具有一定的开创意义。同时,我们提出的方法,对于理解消费者偏好也具有一定的参考价值。