邻域粗糙集的并行属性约简方法研究

来源 :江苏科技大学 | 被引量 : 0次 | 上传用户:djkangzi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于科学和工业领域中数据的快速增长,传统的数据挖掘算法从数据存储和计算复杂性的角度都面临着挑战。作为数据挖掘的重要预处理技术,属性约简有助于通过消除冗余和不相关的属性来减少特征空间并提高分类性能。传统求解约简的启发式算法采用单一的度量指标作为约束条件,但这一策略并不能保证约简满足多重度量指标下约束需求。并且绝大多数的约简定义是建立在考虑所有决策类基础上的,而忽视了不同决策类别所对应的度量指标在约简前后的变化情况。除此之外,在单个节点的串行计算策略下难以处理海量数据并在庞大的搜索空间中探索有效的解决方案。针对以上问题,本文将从局部多约束角度出发,基于CUDA模型设计并实现一种并行属性约简算法。主要研究内容如下:(1)局部多约束的属性约简方法研究。首先介绍传统启发式约简算法,采用单一度量指标作为约束条件,如近似质量和条件熵。接着从局部的视角出发,分别对每一个决策类别进行约简。于是提出一种面向局部多约束的属性约简策略,其目的是使得每个决策类别都能够满足多重度量指标下的约束条件。实验结果展现了该约简方法的有效性。(2)邻域粗糙集近似和条件熵并行算法研究。首先分析CPU和GPU的结构差异,并介绍CUDA编程模型。接着讨论局部多约束条件的计算步骤,设计一种计算邻域等价类和决策类的并行算法,通过CUDA划分数据集并基于Multi-GPU计算局部条件熵和邻域粗糙集的上下近似。最后,通过三种度量指标评估并行算法的性能。实验结果表明了该算法的可行性。(3)并行属性约简算法研究。首先阐述传统属性约简算法的局限性,接着分析属性约简的并行性,给出三种并行策略的时间消耗。然后通过CUDA实现一种数据与任务并行的算法,不同决策子系统通过属性重要度得到候选属性。最后,候选属性子集进一步约简得到最终结果。实验结果表明了该算法具有较好的加速比和扩展性,可以有效处理数据挖掘中的海量数据。
其他文献
植物内生菌(Endophyte)是生活在健康植物各组织器官的细胞间隙或细胞内部,并与宿主植物建立起共生关系的一类微生物。作为植物微生态系统的重要组成部分,内生菌定殖于植物体内,构筑了宿主植物的健康屏障。内生菌次生代谢产物是植物内生菌拮抗病原菌的主要方式之一。前期研究发现马铃薯内生菌具有较好的拮抗马铃薯病原菌活性。本文主要对优选菌株Trichothecium crotocinigenum拮抗病原菌的
芳烃,尤其是苯、甲苯、二甲苯(BTX)一直是一种重要的化工原料,现在我国每年85%以上的芳烃依靠石油路线制得,为摆脱这种情况,甲醇制芳烃工艺应运而生。本文将锌改性ZSM-5催化剂
常见的防腐蚀涂料通常以环氧树脂、醇酸树脂、丙烯酸树脂等作为基础成膜物,但随着时代的发展,各种新型高分子新材料开始在防腐蚀领域崭露头角,成为重要的成膜树脂。聚芳醚砜类树脂和聚芳醚酮类树脂就是这一类新材料中的优秀代表。聚亚苯基砜(PPSU)和聚醚醚酮(PEEK)等聚芳醚树脂具有耐高温、机械性能好、耐水耐溶剂性能优异等特点,以其作为成膜物的PPSU/PEEK复合涂料是一种综合性能优异的防腐蚀涂料。通过添
由于道路资源有限,机动车保有量的急剧增加造成城市交通环境逐渐恶化。设置间歇式公交专用道可以实现道路资源在时间和空间上的充分利用,不仅能增强公交出行的吸引力,确保公共交通在城市交通中的主导地位,还能有效缓解交通拥堵、减少能源消耗、改善环境污染。本文研究了间歇式公交专用道的运行规则和管控措施,确定了间歇式公交专用道的设置条件,对于城市公交专用道的规划设计以及建设应用具有重要意义。归纳总结间歇式公交专用
近年来,绿色化学引起了化学家们的极大关注,逐渐成为有机合成领域的研究热点。醇氧化成醛酮类化合物是一类常见的氧化反应,在有机工业生产、材料研发和药物及天然产物的合成中都发挥了巨大的作用。在已报道的氧化方法中,很多需要重金属试剂或剧毒试剂的参与,会对环境造成严重污染,违背了绿色化学的原则。因此开发一种更简便更绿色的氧化方法一直是化学工作者们关注的问题。本论文主要开发了一种高效、绿色、无金属参与的将醇氧
二甲醚被视为是工业上重要的有机中间体和清洁替代燃料,开发高效的合成气制二甲醚用双功能催化剂非常重要,但仍然是一个挑战。因而,相关研究受到广泛关注。合成气一步法合成
随着生物医学、生物科学、生物技术等学科的发展,蛋白质等生物制品在医疗卫生、食品保健等多个领域得到广泛应用。因此,对蛋白质分离纯化的研究越来越多,蛋白质分子印迹技术
长期以来,光谱探测是用来表征物质结构与性质的重要手段之一,通过对光谱的研究,人们可以获得大量的诸如分子的平衡构型和反应动力学等信息。其中,微波和红外光谱能够提供分子的转动与振动的信息,所以它们被用作定性与定量地分析分子与复合物结构的重要手段。随着科学技术的发展与实验设备性能的提高,大部分的实验光谱测量主要针对小分子、弱相互作用体系或者团簇,因此,大量的实验光谱数据如何精确的被分析一直是困扰实验学家
传统模糊聚类的图像分割方法,如模糊C-均值聚类算法因鲁棒性差、易受噪声影响难以满足抗噪性与细节保留性之间平衡的实际需求,现有研究者们多基于该算法进行改进,加入含有像
为了解决金融领域中各种风险度量的计算分析等非线性问题,次线性期望空间理论被提出,同时次线性期望概念的引入为概率极限理论的研究提供了一个全新的研究方向,在经典概率空