海量数据挖掘技术研究

被引量 : 0次 | 上传用户:ryuichist
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术特别是网络技术飞速发展,人们收集、存贮、传输数据能力小断提高。数据出现了爆炸性增长,与此形成鲜明对比的是,对决策有价值的知识却非常匮乏。知识发现与数据挖掘技术正是在这一背景下诞生的一门新学科。数据挖掘要在实际应用中发挥作用,高性能挖掘算法和数据挖掘软件平台是重要的技术基础。本文以数据挖掘最基本问题,频繁模式与关联规则挖掘为切入点,研究高时间效率、高空间可伸缩性的挖掘算法和分布、异质、海量数据的协同挖掘软件模型。 本文首先发现了基于树表示形式的虚拟投影方法,用于按深度优先挖掘密集型数据集;提出了稀疏型数据集表示形式及非过滤投影方法;进一步提出了基于伺机投影的思想,设计并实现了基于伺机投影的全新算法OpportuneProject,对比实验表明该算法挖掘各种规模与特性数据库的效率与可伸缩性都是最佳的。 由于其内在的计算复杂性,挖掘密集型数据的频繁模式完全集非常困难,解决办法是挖掘频繁模式的闭合集或最大集。本文提出了一种组织闭合模式集的复合型频繁模式树,支持搜索空间的高效剪裁,有效地平衡了树生成与树剪裁的代价,实现了闭合模式集挖掘算法CROP,其效率与可伸缩性大大优于CHARM等算法。在此基础上,本文提出了闭合性剪裁和一般性剪裁相结合,并能适时前窥的最大模式挖掘算法MOP,大大优于MaxMiner和MAFIA等算法。 本文进一步提出了根据信息熵自动生成与人机交互相结合来确定数值型与类别型属性概念层次的新方法,不仅支持逐层挖掘而且能进行跨层挖掘,并实现了多支持率剪裁,将所提出的挖掘频繁模式完全集、闭合集的新算法推广到无冗余关联规则、多维多层多数据类型关联规则、多支持率分类规则的挖掘问题。 本文在所取得的数据挖掘算法研究成果基础上,对数据挖掘软件模型作了深入研究。首先提出了数据挖掘作业描述语言MDL和挖掘任务模型脚本语言,设计并实现了一个集成数据仓库管理功能、挖掘引擎具有一定智能、体系结构可扩展的数据挖掘工具,并已经集成到一个大型商业连锁企业的经营决策系统中。 本文在研究分布式问题求解技术和分析移动型智能代理技术的基础上,提出了从网络海量数据中发现有用知识的协同挖掘模型。首先定义了黑板和知识源的描述语言以及知识交换格式,设计和实现了支持互联网上分布式问题求解的黑饭系统,提出了分布式网络海量数据挖掘系统DistributedMiner。接着在分析移动式摘要智能代理技术的基础上,设计了一种移动式智能代理服务器,通过重构基础结构提出了移动式网络海量数据挖掘系统模型MobifeMiner。
其他文献
[目的/意义]准确把握2014年的图书馆发展态势,有效了解英美等发达国家2014年的图书馆发展政策方向、指导思想、战略规划以及实践策略,梳理分析图书馆事业未来的发展趋势,以为
集成管理是一种全新的管理理念和方法 ,是企业信息资源管理的主要内容之一。本文阐述了集成与集成管理的概念 ,并从企业历史上形成的相互分离的信息功能的集成及企业内、外部
人才竞争自然化2月22日,尚任上海市代市长的陈良宇在上海市《政府工作报告》中表示,上海要在年内实行《居住证》制度。不用解释也能看出,这是一招吸引人才的措施。如出一辙的
超宽带系统以自身高带宽、低功耗、高分辨率、低系统复杂度等优点在众多尖端技术中脱颖而出。设计一款基于超宽带(UWB)射频载波信号的三维定位系统,整个设计过程基于QT CREAT
民族民间艺术在非物质文化遗产中占据重要地位,数量和表现形式也是多种多样。民族民间文学艺术是一个国家传统文化的重要组成部分,为世界多样性的发展作出了巨大贡献。然而,
司法由于其所具有的定争止纷功能在现代社会中扮演的角色越来越重要。改革开放以来,随着经济体制、政治体制改革不断深入,司法改革成为官方、民众的需求。社会全方位的改革导致
本文的研究对象是民事诉讼领域的证明责任分配问题。证明责任问题一直是民事诉讼法学界研究的核心问题之一,甚至有学者将之喻为"民事诉讼的脊梁",而证明责任的分配问题又是证明
纯“工具性”的语文教学观过分强调知识技能的重要性,知识目标至高无上,只重视对学生进行知识的传授和技能的训练,学生成了灌输知识、接受知识的机器,中学生热情似火的内心世界成
海上保险作为一种有效的损失补偿手段,自其产生后的几个世纪以来,对世界海上运输和海上贸易的发展起到了十分重要的作用。海上保险中的保证制度起源于英国的海上保险实践,有着悠
随着计算机网络技术的迅猛发展和广泛应用,特别是Internet的快速普及,促进了计算机与互联网科技的不断创新与升级。网络设施和资源对于国家、企业和个人的重要性日益增强,在不断