基于信息熵的数据约简算法

来源 :东北大学 | 被引量 : 0次 | 上传用户:gzalpha
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多,而大量激增的数据背后隐藏着许多重要的信息。数据挖掘,就是从大量数据中提取或“挖掘”隐含的、事先未知的、潜在有用的信息。粗糙集理论是一种新的处理模糊和不确定知识的数学工具。该理论的特点是不需要任何先验知识,或任何附加信息,能有效地分析和处理不精确、不完整和不一致等各种不完备信息,并从中发现隐含知识,揭示潜在规律。它是一种新的数据挖掘技术。属性约简是粗糙集理论的核心内容之一。本文把信息熵理论中的互信息作为启发信息,得出两种新的属性约简算法。第一个算法是以互信息作为启发信息,对于能够直接决策的对象直接列出决策结果,然后再对其余的对象进行决策,这样做减少了不必要的重复。这里注意的是同一路径上的属性是不能重复的,这也是决策树的一种剪枝方法。第二个算法以空集作为约简的起点开始搜索,采用回溯的分析方法,减少了搜索空间,提高了算法的效率。这两种算法都可以减小搜索的次数,从而减少了搜索空间。最后分别用实例验证了这两种算法的正确性和高效性。经典的粗糙集理论主要用于离散特征值的情形,信息熵也主要用于离散值信息系统,而实际的数据不仅有离散的也有连续的情形。最后介绍了模糊粗糙集信息熵的基本理论,并将其应用到连续值评估模型中,提出了一种基于模糊熵的评估模型的属性约简算法,并且用实例验证了算法的有效性。
其他文献
不知从何时起,夏日和寒冬绵延无止,侵占了大半年的时光,而春天几乎被压缩殆尽。柔软的春衫,几年都没有拿出来过,可惜至极。好在草木们依旧明辨春日,欣欣然地成长。  春意是从口舌之间开始的,泥土里散发出的青草香,树枝上冒出的新芽,乃至于初发的花骨朵……一旦被发现,皆是盘中餐。常常感慨于中国人的味蕾,在最贫乏的年代,竟然也能吃出百般花样,这是何等的胆大心细。  椿趣  香椿,性味苦寒,清热解毒,健胃理气,
摘 要:本文分析了 110kV 变电站故障的种类 ,重点对监控系统、变压器的故障及重合闸事故进行了相应的说明,针对变电站常见故障及其原因 ,提出了相关处理措施。  关键词:变电站 ;监控系统 ;变压器 ;故障分析 ;重合闸;防范措施  中图分类号:TM411+.4文献标识码:A文章编号:    引言  随着国民经济业不断蓬勃发展 ,变电站的安全运行成为保证电力供应最重要最基本的方式之一。变电站一旦
期刊
对均衡问题解的存在性的研究,国内外学者主要运用KKM定理,不动点定理,极大元定理和Ekeland变分原则四种方法.这四种方法在解决问题过程中,对空间的限制和对函数或映射的条件
广义系统是一种比正常系统更具一般性的系统,更能适应描述实际系统的需要,也为我们提供了更广阔的研究背景。近年来,很多系统与控制科学领域内的学者对广义系统做了越来越多
摘要: 在建设工程项目中,电气系统的安装施工起到了十分重要的作用,一旦出现施工故障就会造成严重的后果。因此,做好电气安装施工的每一步,保障电气的高效运作,提高社会效益。  关键词:电气安装;施工技术;建筑  中图分类号:TS958.1+7 文献标识码:A文章编号:    引言  随着电气工程的系统性和综合性不断提升,建筑电气行业的设计理念和施工技术也在不断进行变革,节能理念和安全意识以及防雷思想始
期刊
B-S理论提供了期权定价理论的基础.但B-S理论与现实世界存在不一致性.实际上B-S模型假定标的资产价格服从几何布朗运动,它的波动率为常量.而在实际市场运行中标的资产的对数