基于粗糙集的文本自动分类研究

来源 :辽宁师范大学 | 被引量 : 0次 | 上传用户:yangxfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的迅速发展,网络已经成为人们进行信息交互和处理的有效平台,各种以文本形式表示的信息以极高的速度增长,如何能够有效地组织和分析海量的Web信息资源,使人们能够按照内容实现对文本的自动分类,帮助用户迅速地获取其所需要的知识和信息,是计算机科学领域目前的研究热点之一,且具有广泛的应用背景和实用价值。 粗糙集理论是由波兰科学家Z.Pawlak在1982年提出的一种处理含糊和不精确问题的新型数学工具。它不需要任何行先验信息,能够有效分析和处理不完备、不一致、不精确的数据。自该理论90年代被引入到机器学习、人工智能等领域后,已经在知识获取、规则提取、决策分析、模式识别、数据挖掘等领域获得广泛的应用。本文结合粗糙集理论对文本分类进行了研究,主要进行了以下工作: 1、对中文文本进行分类的一个前提条件是对中文文本进行分词处理,中文分词也是进行中文信息处理的一个难点。针对这一现状,本文在已有的分词方法基础上,设计了一种快速分词算法。该方法考虑到了对歧义词的处理,并将分词和特征集缩减结合在一起,从而增强了分词准确度,减少了特征缩减过程,降低了时间复杂度; 2、采用了文本分类中新的特征权重算法,考虑了特征项的类内和类间分布。 3、改进了一种粗糙集决策表的值约简算法,并将其应用到文本分类规则的提取中。 首先将每一文本的每个特征项的权值进行离散化处理,然后通过粗糙集约简提取出文本的分类规则。其生成的规则属性较少,分类准确度较高。
其他文献
随着Internet的快速发展和企业级网络应用广泛使用,软件的规模越来越大,传统的软件开发越来越不适应潮流的发展。由于WEB应用的基础是以文档为中心,面向对象的成熟软件方法无
探地雷达(GPR)用于路面无损检测是近年来发展起来的新技术,由于其测量精度高,能满足测量误差要求,已在国内外得到广泛应用。然而对其回波信号的结果检测大多仍停留在人工检测阶
在嵌入式技术与通信技术飞速发展的今天,Sun公司提出了基于消费类电子设备的嵌入式开发技术J2ME(Java 2 Micro Edition),并在其范畴内针对移动通信设备定义了一个子集MIDP(Mo
可分级视频编解码(Scalable Video Coding)技术是在MPEG-2标准中提出的,其基本思想对视频图像进行分层编解码。可分级视频编解码,目的在于形成具有基本质量的基本层,以及一个
分支定界算法是求解优化问题的重要方法。虽然它有很高的计算精度,但是,高的计算时间复杂度,降低了它的实际应用价值。本文设计实现的一种专用于计算分支定界算法的机群计算
在木材加工中,原木的外围几何形状是制约下锯的关键性因素,对原木形状的精确识别已成为木材加工业的首要问题。长期以来使用的人工检尺方法,受人为因素影响较大且工作效率低,
自然语言问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。自然语言问答的人机界面、精确和实时是自然语言问答系统的三大研发目标
数字电视系统包括节目制作、信号发射、信号传输和用户接收4个环节,目前在我国前3个环节都已实现了数字化,只有用户接收这一环节尚未实现。模拟电视机最终将被数字电视机所取
随着网络信息的膨胀,网上大量可用信息对于回答用户的各种问题变成了具有吸引力的资源。基于关键字查询的网络搜索引擎,通常会对用户的提问返回成百上千个文档,而用户为了得到与
随着经济的发展,电信服务进入了全新的阶段,尤其是移动网络的发展更是日新月异。提供基于用户行为分析的增值服务越来越被广泛的使用,这就需要通信网络收集可靠准确的用户测量报