【摘 要】
:
在信息爆炸的今天,网络信息技术快速发展,各种领域的大数据层出不穷、杂乱无章。对于大数据的处理已经成为数据挖掘方面的焦点问题。面对这样复杂的数据,很多都是不确定的或
论文部分内容阅读
在信息爆炸的今天,网络信息技术快速发展,各种领域的大数据层出不穷、杂乱无章。对于大数据的处理已经成为数据挖掘方面的焦点问题。面对这样复杂的数据,很多都是不确定的或者是模糊的,这就需要人们从中获取用价值的信息。当遇到信息量特别大的数据时,需要采取适当的数据分析方法对其进行分类和知识约简。Rough集理论和Fuzzy集理论是用来处理不确定性的数学工具,它们可以用来处理数据的不确定性和数据的模糊性。近些年来,这些理论已经在数据挖掘、机器学习、模式识别等方面占据了不小的地位,成为很多学者的研究方向,并且还在被拓宽到多个领域,取得了很多实际成果。本文总体思想是:将Shannon熵的理论与粗糙集理论基础知识相结合,分别提出了邻域关系信息熵、模糊关系信息熵等概念,对它们的性质进行了详细讨论,并进行数据实验分析。具体工作如下:1.邻域是数据的分类与学习中最重要的概念之一,用来区分不同决策的样本。在本文中,提出了邻域关系熵,用来刻画一个邻域关系的不确定性,它反映了一个特征子集的区分能力。本文的邻域关系熵不同于以往的邻域熵,邻域关系熵是通过邻域关系的基数定义的,而不是通过计算邻域相似类的基数而得到的。为了描述由于特征子集的变化而引起的数据不确定信息的变化,提出了邻域关系联合熵、条件邻域关系熵、邻域关系互信息等概念。另外,在这些测度中引入参数,使得它们更利于分析实值数据。基于以上的不确定性度量,定义了刻画特征子集的属性重要度,并设计了特征选择贪心算法,最后利用UCI标准数据集进行实验分析,与现有算法进行比较。实验结果表明,基于邻域关系熵的特征选择算法优于其他一些经典算法。2.利用距离函数重新定义了模糊关系,提出模糊关系联合熵、条件模糊关系熵、模糊关系互信息等概念,并对其性质进行了讨论。另外,讨论了邻域半径和属性子集对模糊关系熵的影响。基于以上理论的研究与论证,设计了基于模糊关系熵的特征选择算法并进行实验验证分析。实验证明:与模糊信息熵相比,本文提出的算法不仅减少了属性约简的复杂度而且提高了样本的分类精度,同时在一定程度上也缩减了约简时间,具有一定的实际意义。
其他文献
内参基因即内部参照基因,因其在各组织和细胞中表达相对稳定而常被用作检测基因表达水平变化的参照,目前最常用的内参基因包括Actin、GAPDH、18s rRNA、EF1α等。近年来研究
长大斜井隧道的开挖,其隧道内空间较为闭塞,产生的粉尘很难顺利从隧道内排除,因此针对长大斜井隧道内粉尘的处理技术有待进一步深入研究,本文依托张吉怀铁路官田斜井隧道,通过理论研究、现场试验以及数值模拟等研究手段,对长大斜井隧道爆破期粉尘产生机理、粉尘的危害、粉尘在隧道内的分布运移规律以及长大斜井隧道粉尘控制技术展开深入研究,文章主要结论如下:(1)长大斜井隧道爆破期粉尘产生机理的研究。通过现场调研及理
玉米是我国重要的粮食作物、饲料作物和工业原料,在保障粮食安全和社会稳定之中发挥着重要作用。近年来,玉米茎腐病严重影响玉米生产,是广泛和最具破坏性的土壤传播疾病,其发生可造成玉米大量减产并影响机械化收获。控制玉米茎腐病主要是利用抗性品种并辅以化学农药,然而培育新的抗性品种耗费时间长,化学农药的大量使用给人类健康和环境均带来威胁。因此,寻找一种更安全有效的生物防治方法来防治玉米茎腐病具有重要意义。本试
启动子是进行微生物基因操作的重要元件,前期我们利用一株耐冷低温沙雷氏菌Serratia fonticola strain MY1402为宿主建立了基本的遗传操作系统。经建库筛选后,初步筛选到七个
菌根(Mycorrhizae)是指土壤中某些真菌与植物根系所形成的共生互惠体。外生菌根真菌(Ectomycorrhizas, ECMs)作为菌根分类中的重要成员之一,在自然界中广泛存在。其主要隶属
昆虫病原线虫(Entomopathogenic nematodes, EPNs)是寄生于昆虫并且可以在其肠道内共生菌的帮助下杀死宿主的寄生虫。昆虫病原线虫Heterorhabditidoides rugaoensis是小杆科(
酿酒酵母中,Rab蛋白(在酵母中常称为Ypt, Yeast Protein Transport)是囊泡运输的主要调控因子,近几年发现Rab蛋白也参与细胞自噬过程。酵母中的TRAPP (Transport Protein Par
研究表明:在风沙运动中由于沙粒间的相互频繁碰撞会导致沙粒会带有一定程度的电荷;当沙粒带电时会对电磁波有不同程度的衰减。许多电磁波技术用于风沙运动的监测或者需要穿行
由于受到传感器空间分辨率的限制以及自然界地物的复杂多样性的影响,高光谱遥感图像中存在大量的混合像元。混合像元的普遍存在会影响地物的识别和分类精度,同时增加地表参数
中子星是大质量恒星在演化的晚期、超新星爆发之后,在其中心形成的致密星体,是目前所能观测到的高温高密星体之一。鉴于其宏观性质的可观测性,中子星为人们提供了一个研究致