文本分类和聚类若干模型的研究

来源 :江西师范大学 | 被引量 : 0次 | 上传用户:xyxyxyxyxy999
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网上文本数据的持续暴涨式增长,文本挖掘这种在大规模数据情况下能有效组织和管理文本信息的工具得到了广泛的研究和应用。本文分别针对文本挖掘中分类和聚类的几个问题提出了改进模型。对于有监督学习中的文本分类问题,传统分类方法在类别较少时能表现较好的效果,但遇到类别较多且类别间存在着复杂关系时其效果不尽人意。“深层分类”模型是一种解决大规模文本层次分类问题的有效框架,它由搜索和分类两阶段组成,其中搜索阶段用于选择与测试文档相关的若干个候选类别,分类阶段则是通过对这些候选类别训练更加精确的分类器进行最终分类。本文基于该框架提出一种改进型模型,首先将一种新方法用于单独评价搜索阶段的效果;然后利用类别和文档信息共同选择候选类别;最后基于类中心训练Rocchio分类器,同时还利用相关类别的分类结果确定最终类别。对于无监督学习中的文本聚类问题,准确高效地度量文本间的相关性是其重要任务。传统方法直接计算文档间的统计相关性,而没有考虑相邻文档的影响。本文使用了Markov网络模型表示文本集中文档关系,该方法不仅考虑文档间的直接相关性还考虑了各自邻域对其描述的影响;并将该方法用于文档聚类中,通过构造Markov网络并加权结合各步转移矩阵,使得类内数据相关性描述更大,类间数据相关性描述更小,最后利用这种相关性描述差距明显的关系矩阵进行聚类。本文的工作主要包括以下两点:1 )系统地研究了大规模文本分类中的方法和应用,并针对深层分类模型提出了一种结合相关类别的大规模层次文本分类模型,实验结果表明:相关类别,特别是顶层类别和兄弟类别,对目标类别的判定有很好的辅助作用。2)使用Markov网络模型表示文本数据集,使用加权随机游走矩阵的方法描述数据集中对象间的相关性,并使用该方法进行文本聚类,实验结果表明:在文本聚类中,利用加权结合各步随机游走相关矩阵能很好的提高聚类效果。
其他文献
膜计算是自然计算的一个新分支。它是从活细胞的结构和机能中抽象出来的一种计算模型,具有非常良好的分布式、并行性以及非确定性等优点,已经吸引了当前国内外生物科学家、信息
径向基函数(Radial Basis Function, RBF)神经网络以其深厚的生理学基础、简单的网络结构、快速的学习能力、优良的逼近性能,在函数近似、模式识别、信号处理、系统辨识等领
与传统车辆相比,电容混合动力汽车由于增加了辅助动力装置及其控制系统,整车结构变得更为复杂,车辆发生故障时对故障的判断和处理变得异常困难。针对这种情况,需要为项目车辆
视频监控系统是一种结合了计算机技术、图像压缩技术、多媒体技术、网络技术等多项技术的计算机系统,它已广泛地被应用在医院、学校等多个场所,监控系统发展至今共经历了模拟
随着科技的发展、社会的进步,生物特征识别成为了身份验证的关键技术。生物特征识别技术所研究的领域包括人脸识别,指纹识别,虹膜识别,视网膜识别,语音识别,体形识别,签字识
随着Internet和电子商务的发展和普及,Web在很大程度上改变了用户反馈观点的途径。用户购买和使用产品之后会在Web上发表对产品的评论,这些评论中包含用户对产品性能或功能等
随着Web 2.0技术的迅猛发展,互联网上带有丰富观点的资源(如评论、博客等)正以指数级的速度增长。基于用户发布内容的情感分析已经成为自然语言处理领域一个引人注目的研究热
遗传算法具有广泛的应用。k-means算法是一种最常见的聚类技术,但由于对初始聚类中心的敏感性,该算法往往收敛于局部最优。   本文研究设计了一种融合标准遗传搜索和模式搜
随着对业务流程管理的不断研究与发展,流程可变性已经成为研究领域的一个重点。业务流程已经不仅仅是用来描述企业实际的业务流程、实现对流程的自动化处理,而是要求系统能够
中医舌诊是目前医学领域的重要前沿课题之一,随着中医舌诊客观化研究的不断深入,舌诊数字化影像在临床工作中也不断得到应用,临床上每天都会产生大量的舌像,而如何有效的检索