粗糙集理论在文本挖掘中的应用研究

来源 :长春理工大学 | 被引量 : 0次 | 上传用户:liongliong457
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘和文本挖掘是研究如何获取知识的重要领域。粗糙集理论是一种在保持分类能力不变的前提下,通过属性约简导出概念分类规则的新型软计算方法,该理论在文本挖掘中的应用研究具有重要的理论意义。   本文主要对粗糙集理论在文本挖掘中应用方法进行研究,包括基于分明矩阵的属性约简和基于Apori算法的关联规则挖掘两个方面。   首先,本文提出先对决策表进行约简,删除其中的冗余项,然后生成分明矩阵;在对分明矩阵进行属性约简的过程中,通过对核属性的提取,减少中间冗余范式的生成,提高了算法的效率。其次,本文根据Apriori算法的性质,在扫描数据库生成候选项集的同时删除不满足该性质的项,缩小数据库规模,从而减少了扫描数据库所消耗的时间。   与传统经典算法相比,改进后的算法在运行时节省了大量的时间和空间上的消耗,在处理大规模的文本数据库挖掘的性能上有很大提升。
其他文献
Ad hoc网络是一组带有无线收发装置的移动节点组成的一个多跳的临时性自治系统。与传统无线网络相比具有无中心、自组织等特性,网络中节点的行为更不可控,信任关系的建立显得
人类赖以生存的气候环境受自然因素和人类实践活动的双重影响,变化幅度较大,导致各类气象灾害频繁发生。因此,气象要素的预测研究逐渐成为大气科学发展研究的热点。目前,此类研究
副本是一种提高P2P系统的可扩展性、容错性、可用性和减少查询相应时间的有效手段。副本作为P2P技术的一个重要组成部分,越来越被人们重视。在P2P网络中,将资源复制后分布式
图像哈希算法是信息安全方向研究的一项热门课题。它将一幅图像映射为一串短小的数字或字符序列,已普遍应用于图像认证、图像索引、图像检索和数字水印等方面。图像哈希算法
随着信息化技术的发展,工作流技术已经应用到了各种信息化系统中。中外软件行业近年来一直在发展工作流技术,有很多厂商都提出了自己的工作流产品。工作流技术能够如此受软件行
人脸识别技术涉及到图像处理、模式识别和人工智能等多门学科,已成为计算机视觉和模式识别领域中一个富有挑战性的课题,在国家安全部门和银行密码系统等领域具有广泛的应用背
在软件产业化和信息化的发展进程中,软件质量已经变得越发重要。但是,在软件开发过程中,重开发轻评测、评测不规范等错误观念仍然存在,致使软件或多或少存在着缺陷,这样既不能保障
管道腐蚀检测系统是采集大量来自管道腐蚀数据,并对数据进行分析处理,找出管道腐蚀原因。由于目前该领域在对腐蚀数据的处理方法上大多依靠传统的方法,大量的腐蚀数据没有得
随着XML数字签名在Web服务、电子商务、云计算等领域中的广泛应用,其安全问题日益引起重视。XML数字签名用来保证签名消息的身份认证性、数据完整性和非否认性。XML数字签名
当今社会,市场经济的迅猛发展,社会经济在各种复杂的深层次的社会矛盾下日益凸显,由此引发的产品质量问题日益引起民众的关注,产品质量和售后服务问题究成为决定企业发展和用