基于粗糙集理论的文本挖掘技术研究

来源 :山西大学 | 被引量 : 2次 | 上传用户:zhoufei123456
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
粗糙集理论是二十世纪八十年代由Z.Pawlak提出的一种新的处理不精确、不确定知识的软计算工具,而文本挖掘技术是随着互联网的蓬勃发展和电子图书的出现逐渐形成的信息技术领域的一个重要的研究方向,本文对基于粗糙集理论的文本挖掘进行了较为深入的研究。 在文本分类方面,本文提出了一种基于聚类和粗糙集理论相结合的文本自动分类方法。聚类方法对已有文档的无指导分类易于实现,而粗糙集理论对无指导分类学习存在一定的缺陷,但对已分类的文档集经过约简可形成少量的有效规则,对新增文档的分类有较高效率。本文利用文档聚类和粗糙集约简相结合的方法,对训练文档进行分类,形成规则后对新加入的未分类文档进行归类。 在文本检索方面,本文提出了一种基于粗糙集和模糊集相结合的文本检索优化方法。用户可以先根据自己在某个时刻的兴趣爱好自定义查询,详细刻画查询中各关键词的兴趣度,然后系统采用粗糙集和模糊集理论相结合的方法,对用户查询进行同义词、近义词的优化和回归,再进行查询匹配,将查询结果按其与用户查询相似度高低顺序返回,使用户获得与其兴趣最贴近的查询结果。 本文对上述文本自动分类方法与文本检索优化方法进行了实验,结果表明该方法是有效的,可广泛应用于文本分类和文本检索。
其他文献
分布式应用系统具有网络化和异构性的特点,是网络一体化和并行处理分布化的产物。中间件是分布式系统上构筑三层C/S基础应用框架的一种构件技术,是处在操作系统、网络层和应用层
昆虫脑部神经元数量远小于哺乳类动物,但昆虫所表现出的部分行为却与哺乳类动物相媲美。昆虫脑部研究工作为复杂脑结构及机制的理解打下了基础,但现有生理研究手段尚未完全明晰
该文主要包括以下几个方面内容:1、iSCSI协议:IP-SAN的效率由多个因素共同决定,包括存储节点的I/O效率、网络传输效率、文件系统效率等等.但iSCSI协议作为IP-SAN的传输协议,
基于图像绘制虚拟现实技术利用摄像机拍摄的真实图像,经过图像处理把一系列图像合成全景图,再重新构成新的视图.这种方法不需要建模,场景逼真度高,场景的处理与场景的复杂度
互联网和IP技术的高速发展,电话服务的分组化已成为电信网络演进的主流方向,VoIP技术正在经历前所未有的迅速发展。各种VoIP产品大量推向市场,改变着人们的生活方式;同时,VoIP的协
该文首先对智能网的概念及移动智能网中的数据库应用进行了介绍.并以北京邮电大学程控交换与通信网国家重点实验室和东信北邮信息技术有限公司自主开发的CMIN02商用移动智能
随着当今商业活动的开放性和丰富性的增强,特别是我国企业正处在成长期,开发、部署、管理和维护企事业应用系统的客观复杂性正在加大。因此,缩短复杂应用系统的开发周期,降低开发
语音对话是人们相互通讯和交流最方便快捷的手段。但是人们在语音通讯过程中不可避免的会受到来自周围环境、传输介质的干扰,引入了噪音,影响了我们的听辨。在过去,我们一般使用
随着信息技术的发展,互联网中海量多模态数据不断涌现。如何对这些海量数据进行分析、理解和利用,挖掘其中包含的具有巨大价值的信息,是一个重要的研究课题。  多模态数据往往
工作流技术是当前非常活跃的研究领域之一,无论是企业内部应用的集成还是外部B2B集成,工作流技术都是最主要的方法。工作流是业务流程的计算模型,即将相应的业务逻辑和业务规则