面向大数据的高维数据挖掘技术研究

被引量 : 59次 | 上传用户:lgs0519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
面对大数据时代的到来,传统的数据处理方式面临着新的严峻挑战,大数据时代的大量化(Volume)、多样化(Variety)、快速化(Velocity)和价值密度低(Value)等特点让传统的搜索方法和工具有时只能望“数据”兴叹。只有面向大数据的技术不断发展,才能将大数据时代带来的挑战变为机遇,更好地运用这个重大战略资源,并有效构建相适应的数学模型和工具,真正将海量数据变化为有效信息。本文以面向大数据的高维数据挖掘技术为研究对象,结合项目的需求,为了实现“从数据的个体研究变为数据系统研究”、“从数据的被动验证变为主动发现”,做了以下几个主要方面的研究和探索:(1)在大数据时代,由于数据的来源较多,使得数据融合尤为重要。本文采用了数据预处理技术,如数据清理、数据集成、数据选择等方法,最大范围地将数据整合在同一个标准下,解决了数据的融合问题。大大提高了数据挖掘的质量,降低实际处理所需要的时间。(2)建立了基于三维矩阵的数学模型。将数据的每个属性定义为空间中的一个维度,构成一个N维空间。将其属性值用向量来表达,再转化以矩阵形式表示,每条记录的信息用一个M×N矩阵表示。这样一系列的矩阵可以将所有的记录表示成一个三维矩阵,此矩阵是后续算法的基础。(3)将仿生学优化算法应用于高维数据的关联规则分析中。对传统遗传算法应用于高维数据关联规则挖掘时出现的早熟收敛和后期收敛速度慢等问题,采用了一种协同进化算法,并引入了一种信息交互机制,使两个种群协同进化,弥补遗传算法的不足。实验证明在可接受的时间复杂度前提下,该协同进化算法是一种能有效避免早熟收敛等现象的全局优化算法,应用于高维数据集时,提取出的关联规则更为有效。(4)引入了超图和系统的概念,探索在三维矩阵模型上建立超图,并针对大数据的特点,结合系统的概念采用了新的超边定义方法,提高了处理问题的能力;在基于无向超图的聚类分析中,论文应用超图分割算法HMETIS进行聚类,实现了高质量的聚类分析;在基于有向超图的关联规则冗余及环路检测中,论文将关联规则转化为有向超图,并重新定义了邻接矩阵,对冗余和环路的检测转化为对于超图中连通块和圈的处理,为关联规则的冗余处理提供了新的思路和方法。(5)将以上研究产生的新方法应用于实际项目的数据处理中,实验结果验证了本论文采用的三维矩阵数学模型和相关的数据挖掘算法能够从高维数据中发现新的高质量的知识。
其他文献
<正> 言论自由是伴随着人类近现代民主制度的产生而出现并获得宪法确认的公民基本权利之一,是民主制度得以实现和不断完善的基本条件。在人类追求民主的历史过程中,言论自由
随着电子商务的快速发展,越来越多的消费者开始通过淘宝、凡客诚品等电子商务平台购买服装。然而目前国内的电商平台并不提供消费者在网上购买服装时量身定制服装的服务,网购
当前,我国已进入城镇化进程快速发展阶段。随着城市规模逐步扩张、人口数量急速增长、产业布局不断调整、工商业发展模式日趋多元以及城镇居民生活质量不断提升、现代消费方
通识教育是大学教育中的非专业教育部分,是为学生进行任何专业学习准备的"共同教育",旨在培养有社会责任感、健全人格、广阔视野、全面发展的社会公民。在通识教育视野下建设
提出了一种新型空气预热器,该预热器依靠8个阀门的不同开闭来控制空气与烟气交替流过2个蓄热体,从而实现烟气对空气的加热.分析表明,新型空气预热器与回转式空气预热器相比,
<正>食用菌是人们喜爱的天然食品,食用菌种类繁多,营养丰富,含有人体必需的多种氨基酸和丰富的蛋白质,是众所周知的健康食品。食用菌多糖是一种特殊的生物活性物质,具有增强
随着经济全球化的迅猛发展和国际竞争的加剧,跨国公司一改以往将R&D活动集中于公司母国的传统,纷纷在海外设立R&D机构,R&D活动国际化布局已经成为跨国公司全球化经营战略的一
货币资金是企业资产的一个重要的组成部分,它的流动性最强并且控制风险最高。企业需要密切关注货币资金的合法性、安全性、稳定性和效益性等方面的控制风险,这些通常是企业管理
<正>卫生总费用(THE)是卫生经济学的基础研究领域之一,它对医疗卫生服务资金的运动进行系统描述的重要工具,综合反映了该区域经济发展水平、社会对人类健康的重视程度及卫生
近几年,食品安全问题显得越来越重要,它不仅关系到人民的生命健康,甚至影响到了国家的安定团结,食品安全事故的不断发生,扰乱了老百姓的正常生活,也影响了我们国家食品工业的竞争力