文本分类中词共现关系的研究及其应用

被引量 : 0次 | 上传用户:JK0803_chenjianchao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在网络信息时代,文本分类作为大规模文本处理的技术基础,有着广泛的应用前景。随着研究的深入,文本分类技术日趋成熟,开始进入实用阶段,对于文本分类算法本身的研究越来越难以取得突破性创新。在这种情况下,寻找新的研究切入点,从基础性问题入手,解决关键技术,再逐步展开应用于分类器性能的改进,对于文本分类技术研究的发展具有重要的意义。本文从分析文本类别特征入手,提出了文本分类中词语共现关系研究的课题,从关联和相关两个方面研究了词语共现关系,然后提出了多种将词关联和词相关应用于文本分类的方法,可概括为直接的基于关联或相关的文本分类模型构建以及间接的其它文本分类模型的改进这样两种应用方式。关联和相关的概念源于数据挖掘中的规则有趣性度量,本文将其应用于文本分类,又采用了统计学中对于相关的一般性解释,从线性和非线性两个方面分析了词间相关性,其中线性相关分析包括了线性方程参数求解和线性相关系数的计算,而非线性相关则主要分析了基于概率的相关性度量指标计算。对于关联分析在文本分类中的应用,本文从关联文本分类模型和关联特征选择这两个方面进行研究。关联文本分类模型是一种基于规则的文本分类模型,在分类规则挖掘算法上,我们提出了一种应用于长频繁集挖掘的基于变动邻域搜索的遗传算法(VNS-GA)设计,在文档类别判定方法上,我们提出了基于规则匹配长度计算的文档区分算法。在关联特征选择的研究中,我们总结了文档类别区分能力和文档覆盖率这两个特征选择原则,提出了k项频集的并集的选择方法。在Yahoo中文文本数据集上的实验结果表明本文提出的长频繁集挖掘算法能够有效地应用于关联文本分类模型,而运用关联特征选择的朴素贝叶斯文本分类模型也大大提高了分类性能。对于相关分析在文本分类中的应用,本文所作研究包括线性最小二乘拟合(LLSF)分类、LLSF和朴素贝叶斯组合分类和基于概率相关性分析的改进贝叶斯分类。在Reuters-21578文本集上的实验结果可得以下结论:首先,LLSF分类器的效果不够理想,说明在文本分类中词间线性关系表现较弱,完全基于线性关系假设的分类器可能存在较大偏差;其次,LLSF和朴素贝叶斯组合分类的性能要好于两种分类器单独使用的性能,说明尽管LLSF分类效果较差,但作为一种成熟分类算法仍有其价值;最后,基于概率相关性分析的改进贝叶斯比朴素贝叶斯分类在评测指标上有着全面的明显的提高,说明了本文提出的词集相关度计算方法用于改进贝叶斯分类的有效性。
其他文献
目的探讨护理学中微技能培训法对提高年轻护士应急能力的作用效果。方法选取2018年6月~2019年5月我院急诊科年轻的护士30名作为研究对象。对所有年轻护士采取微技能培训法,在
接纳承诺疗法是基于正念发展而来的第三代行为治疗理论,它以关系框架理论为基础,在抑郁症等心理障碍的临床心理辅导实践中形成了自己独特的心理病理观和治疗观,以正念、认知
介绍了激光甲烷传感器原理,并将激光甲烷传感器与成庄矿现有甲烷传感器进行不同试验对比。结果表明,该传感器有效提高了瓦斯监测的准确率。
目的:观察结直肠癌患者术前开展肠内营养支持护理的临床效果。方法:选取行结直肠手术的64例患者,将其分为对照组与观察组各32例。对照组患者术前肠道采用常规流食与灌肠清洁,观察
美国著名经济学家尤金·法玛在1970年提出的"市场有效假说"是现代金融学的重要理论基石,而"理性经济人假设"是该假说的核心。但是,现实金融市场上诸多"异象"使得市场有效假说
高中课程改革在课程结构上有了比较大的突破,采用了学习领域、科目、模块三级结构,模块的引入可谓是新课程改革的一大亮点。国内关于模块课程的研究主要集中在职业技术教育领
地下空间整体开发要跨越多个地块,建设主体众多,且地下空间与地上建筑的建设主体不一致,在建设过程中产生多种相互影响、相互制约的界面,同时各建设主体间相对独立和自治,导
21世纪人类面临最大的挑战是各种突发性公共危机事件。水上交通危机事件是公共危机事件的一种,其不仅会造成重大的经济损失、人员伤亡,还会对环境造成严重的破坏。随着我国经
针对国内外碳纤维预氧化设备的发展特点及其现状,本文设计开发了一套新型PAN基碳纤维预氧化设备,解决了目前常规的预氧化工艺在碳纤维生产过程中占用时间长、能耗大、控制参
用于国际航运的船舶排放的压载水带来的海洋外来物种入侵问题越来越严重。一些经济发达的国家如澳大利亚、新西兰、美国等已经制定相应的法律法规,国际海事组织也于2004年通