论文部分内容阅读
随着互联网上文本数据的持续暴涨式增长,文本挖掘这种在大规模数据情况下能有效组织和管理文本信息的工具得到了广泛的研究和应用。本文分别针对文本挖掘中分类和聚类的几个问题提出了改进模型。对于有监督学习中的文本分类问题,传统分类方法在类别较少时能表现较好的效果,但遇到类别较多且类别间存在着复杂关系时其效果不尽人意。“深层分类”模型是一种解决大规模文本层次分类问题的有效框架,它由搜索和分类两阶段组成,其中搜索阶段用于选择与测试文档相关的若干个候选类别,分类阶段则是通过对这些候选类别训练更加精确的分类器进行最终分类。本文基于该框架提出一种改进型模型,首先将一种新方法用于单独评价搜索阶段的效果;然后利用类别和文档信息共同选择候选类别;最后基于类中心训练Rocchio分类器,同时还利用相关类别的分类结果确定最终类别。对于无监督学习中的文本聚类问题,准确高效地度量文本间的相关性是其重要任务。传统方法直接计算文档间的统计相关性,而没有考虑相邻文档的影响。本文使用了Markov网络模型表示文本集中文档关系,该方法不仅考虑文档间的直接相关性还考虑了各自邻域对其描述的影响;并将该方法用于文档聚类中,通过构造Markov网络并加权结合各步转移矩阵,使得类内数据相关性描述更大,类间数据相关性描述更小,最后利用这种相关性描述差距明显的关系矩阵进行聚类。本文的工作主要包括以下两点:1 )系统地研究了大规模文本分类中的方法和应用,并针对深层分类模型提出了一种结合相关类别的大规模层次文本分类模型,实验结果表明:相关类别,特别是顶层类别和兄弟类别,对目标类别的判定有很好的辅助作用。2)使用Markov网络模型表示文本数据集,使用加权随机游走矩阵的方法描述数据集中对象间的相关性,并使用该方法进行文本聚类,实验结果表明:在文本聚类中,利用加权结合各步随机游走相关矩阵能很好的提高聚类效果。