基于粒计算的神经网络及集成方法研究

被引量 : 0次 | 上传用户:haifeng_liu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
基于数据的机器学习是数据挖掘技术中的重要内容,它主要研究从观测数据出发寻找规律,并利用这些规律对未来数据或无法观测的数据进行预测。粒计算理论是解决复杂问题的有效方法,它通过对复杂数据进行粒化分,可将它转化为若干较为简单的问题,从而有助于我们对复杂问题的分析与求解。其思想实质是用简单易求、低成本的足够满意近似解替代精确解,已成为人工智能、软计算和控制科学等领域的研究热点之一。具体地讲,凡是在分析问题和求解问题中,应用了分组、分类和聚类手段的一切理论与方法均属于粒计算的范畴。人工神经网络是数据挖掘的另一种经典方法,是模拟生物神经网络的计算机智能系统,也是软计算技术之一。由于人工神经网络具有信息的分布存储、并行处理以及自学习能力等优点,所以它在信息处理、模式识别、智能控制等领域有着难以估量的应用价值。而神经网络集成通过训练多个神经网络并将其结论进行结合,从而达到大幅提升网络泛化能力的效果。粒计算在某种程度上对神经网络都具有一定的补充,融合这两种理论,研究粒计算下的神经网络及集成能够较好地解决复杂数据问题,具有重要的现实意义。本文主要研究了基于粒计算的神经网络模型及其算法和基于粒计算的神经网络集成(Neural Network Ensemble,NNE)模型及其算法。本文的主要研究内容包括以下几个方面:1.研究基于领域覆盖和AP算法的神经网络分类学习模型及其算法。AP(Affinity Propagation,AP)聚类算法无需事先定义类数,在迭代过程中不断搜索合适的聚类中心,自动从数据点间识别类中心的位置及个数。AP算法是一种确定性的聚类算法,多次独立运行的聚类结果一般都十分稳定。覆盖算法具有可理解性强、计算速度快、识别率高等优点,但它用随机的方法从数据集中选取一部分数据作为训练样本集,学习的顺序在覆盖算法中直接影响覆盖领域的大小和个数,对学习的效果影响很大。用AP聚类方法作为覆盖算法的前端处理器对复杂数据样本进行聚类,无需预先定义覆盖的数量,自动地确定领域覆盖的中心和半径,完成由输入到输出的映射。引入AP聚类算法解决了覆盖算法初始领域中心随机选取的问题。2.研究基于商空间粒度聚类的个体神经网络生成和集成方法。AP聚类算法对于偏向参数P值的选取比较关键,这个值的大小,直接影响着最后的聚类数量。引入商空间理论,运用粒度的分解与合成原理,调整聚类后的粒度,力求寻求适合领域问题的最优粒度。在此基础上,用不同类别的样本训练不同的个体神经网络,产生差异度较大的个体神经网络。个体神经网络的数目等于样本类别数目,确定NNE的结构。根据输入数据与样本类别之间的相关程度自适应调整集成权值,提高NNE的集成精度。3.研究基于二次聚类的个体神经网络生成方法。NNE中个体网络之间的差异度对NNE的泛化性能至关重要,为了提高个体神经网络的精度及差异度进而提高NNE的性能,通过变换网络的训练数据,使得样本能够反应真实的数据分布,增加训练数据间的差异以此增大网络间的差异度,进而提高NNE的性能。首先用交叉验证方法划分原始数据集,接着对所有样本进行聚类,得到第一次聚类样本子集,然后对每一类样本子集进行二次聚类得到每一子类的样本子集,通过AP聚类使得“类内相似,类间相异”的准则最大化,类内样本能够反应真实的数据分布,最后按照排列组合的方式从二次聚类的每个样本子集中选取一类样本构成训练集。交叉验证方法从多个角度学习样本,训练样本和验证样本都尽可能参与学习,避免陷入局部最小值,能够取得较好的效果。这样在网络的训练过程中,对每一个子网的训练集都采用不同的方式进行选取(粒化),使训练样本能够反映原始样本真实的数据分布,增加训练数据间的差异以此增大网络间的差异度,用这种方法产生的个体神经网络进行集成具有较高的性能。4.研究多侧面多粒度神经网络集成优化方法。根据人类认知复杂事物时分侧面、多角度考虑最后权衡作出判断的分而治之的思想,结合特征选择算法,从多个侧面划分数据集的属性粒,在不同属性粒和对应的样本子集上构造多个多粒度个体神经网络参与集成,从多侧面、多角度变换训练数据集划分属性粒及其对应的样本子集,构建差异度较大的个体神经网络,通过计算两两个体神经网络的差异度,优化选择差异度较大的网络参与集成,进而构建多侧面多粒度神经网络集成优化模型。全文的主要工作是提出了几种基于粒计算的神经网络及神经网络集成模型及其学习算法,并通过实验验证了网络结构模型及其学习算法的有效性。
其他文献
目的:观察穿心莲内酯总酯磺化物对脓毒症及严重脓毒症患者的临床疗效并探讨其作用机制。方法:收集2013年11月至2014年10月入住兰州军区兰州总医院呼吸科、呼吸ICU、重症ICU、
根据中国 195 0、196 0、1970、1980年和 1990年地磁三分量绝对测量资料 ,使用球冠谐和分析方法 ,分别计算 195 0~ 1990年各个年代中国地磁剩余场冠谐模型 .球冠极点位于 36°
次贷危机之初,大量资本流入新兴经济体以规避发达经济体低迷的经济金融状况,并推高新兴经济体资产价格、扩大信贷规模,对新兴经济体经济增长也有一定积极作用。但是,自美联储
在分析沁水盆地北部煤层气富集与地下水和地质构造之间的关系基础上,采用大地电磁法探测地下水分布以及有利和不利煤层气富集影响因素、间接探测煤层气相对富集区;根据煤层气
2008年金融危机后,世界主要国家都认识到金融消费者权益保护对金融系统稳定运行的重要性,建立了各自的金融消费者保护机构。英国作为现代金融的发源地,金融业发展及金融监管
建筑业一直是我国安全生产事故多发行业,尤其是现在建筑新结构、新技术、新工艺的不断涌现,建筑工程质量安全管理问题突出,工程事故频发,而事故预防手段却极其落后,造成大量
<正>《平顶山应国墓地(Ⅰ)》由河南省文物考古研究所、平顶山市文物管理局编著,大象出版社2012年7月出版发行。本书为16开精装本,有正文956页,文后有彩色图版112版,黑白图版5
案例: 2000年11月16日,被告某市艺术装饰工程公司与第三人××镇××发展公司签订了一份《建设用地协议书》,约定:第三人同意划给被告1100平方米土地,每平方米2500元,共计27
随着现代社会经济的发展,物资财富的极大丰富,财产的流转利用关系越来越受到关注。占有,不仅是一种物对人的“归属性”关系,也是一种人与物的“利用性”关系。不论占有是作为
本文基于YH4DVAR业务系统构建了集合资料同化试验平台,利用10个集合样本统计得到的流依赖背景误差能显著改进业务应用中背景误差方差的结构和大小.但是受样本数的限制,背景误