基于粗糙集理论的文本挖掘技术研究

来源 :山西大学 | 被引量 : 2次 | 上传用户：zhoufei123456

【摘要】

：

粗糙集理论是二十世纪八十年代由Z.Pawlak提出的一种新的处理不精确、不确定知识的软计算工具，而文本挖掘技术是随着互联网的蓬勃发展和电子图书的出现逐渐形成的信息技术领域

【作者】

：

李钝

【机构】

：

山西大学

【出处】

：

山西大学

【发表日期】

：

2003年01期

【关键词】

：

文本挖掘文本分类文本检索粗糙集模糊集聚类文本特征抽取用户兴趣度查询优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

粗糙集理论是二十世纪八十年代由Z.Pawlak提出的一种新的处理不精确、不确定知识的软计算工具，而文本挖掘技术是随着互联网的蓬勃发展和电子图书的出现逐渐形成的信息技术领域的一个重要的研究方向，本文对基于粗糙集理论的文本挖掘进行了较为深入的研究。在文本分类方面，本文提出了一种基于聚类和粗糙集理论相结合的文本自动分类方法。聚类方法对已有文档的无指导分类易于实现，而粗糙集理论对无指导分类学习存在一定的缺陷，但对已分类的文档集经过约简可形成少量的有效规则，对新增文档的分类有较高效率。本文利用文档聚类和粗糙集约简相结合的方法，对训练文档进行分类，形成规则后对新加入的未分类文档进行归类。在文本检索方面，本文提出了一种基于粗糙集和模糊集相结合的文本检索优化方法。用户可以先根据自己在某个时刻的兴趣爱好自定义查询，详细刻画查询中各关键词的兴趣度，然后系统采用粗糙集和模糊集理论相结合的方法，对用户查询进行同义词、近义词的优化和回归，再进行查询匹配，将查询结果按其与用户查询相似度高低顺序返回，使用户获得与其兴趣最贴近的查询结果。本文对上述文本自动分类方法与文本检索优化方法进行了实验，结果表明该方法是有效的，可广泛应用于文本分类和文本检索。

其他文献

基于分布式OLTP应用环境对交易中间件之性能的优化与改进策略

分布式应用系统具有网络化和异构性的特点，是网络一体化和并行处理分布化的产物。中间件是分布式系统上构筑三层C／S基础应用框架的一种构件技术，是处在操作系统、网络层和应用层

学位

联机事务处理分布式应用中间件TUXEDO

基于IP的存储区域网关键技术的研究

该文主要包括以下几个方面内容:1、iSCSI协议:IP-SAN的效率由多个因素共同决定,包括存储节点的I/O效率、网络传输效率、文件系统效率等等.但iSCSI协议作为IP-SAN的传输协议,

学位

网络存储存储区域网网络传输协议存储空间

基于图像绘制虚拟现实关键技术研究

基于图像绘制虚拟现实技术利用摄像机拍摄的真实图像,经过图像处理把一系列图像合成全景图,再重新构成新的视图.这种方法不需要建模,场景逼真度高,场景的处理与场景的复杂度

学位

虚拟现实图像绘制图像拼接鱼眼投影计算机图形学

基于单片机的H.323终端的设计与实现

互联网和IP技术的高速发展，电话服务的分组化已成为电信网络演进的主流方向，VoIP技术正在经历前所未有的迅速发展。各种VoIP产品大量推向市场，改变着人们的生活方式；同时，VoIP的协

学位

VoIPH.323终端嵌入式系统单片机

基于移动智能网CMIN02系统的数据库技术研究及其应用

该文首先对智能网的概念及移动智能网中的数据库应用进行了介绍.并以北京邮电大学程控交换与通信网国家重点实验室和东信北邮信息技术有限公司自主开发的CMIN02商用移动智能

学位

移动智能网数据库性能测试基准测试程序INBCMIN02-SCP数据库双机热备份技术

分布式组件框架设计及其接口规范

随着当今商业活动的开放性和丰富性的增强，特别是我国企业正处在成长期，开发、部署、管理和维护企事业应用系统的客观复杂性正在加大。因此，缩短复杂应用系统的开发周期，降低开发

学位

组件分布式应用框架三（多）层结构软件重用接口规范

基于小波变换的语音降噪处理

语音对话是人们相互通讯和交流最方便快捷的手段。但是人们在语音通讯过程中不可避免的会受到来自周围环境、传输介质的干扰，引入了噪音，影响了我们的听辨。在过去，我们一般使用

学位

语音信号降噪小波变换白噪音

面向服务的工作流管理系统及其可靠性研究

工作流技术是当前非常活跃的研究领域之一，无论是企业内部应用的集成还是外部B2B集成，工作流技术都是最主要的方法。工作流是业务流程的计算模型，即将相应的业务逻辑和业务规则

学位

工作流系统流程模型业务规则流程定义业务流程工作流引擎应用程序主要算法验证算法业务逻辑

基于粗糙集理论的文本挖掘技术研究

其他学术论文