多源环境中数据预处理与模式挖掘的研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:beijiqie123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着数据库、网络以及各种信息技术的迅猛发展,许多实际应用领域如:传感器网络、商业交易、社会媒体分析等数据的描述信息变得越来越多,产生了种海量、多源和异构表现形式的数据。这些多源异构数据蕴含着丰富的知识和有用的信息。然而,由于多数据源具有异构性、自治性、复杂性、不一致性等特征,使得传统的数据挖掘技术面临着巨大的挑战。因此,开展多数据源环境下标签传播、数据源质量评估、模式挖掘等知识挖掘研究具有重要的研究与应用价值。本文主要研究内容如下:1)由于数据源之间结构的不一致性,很难将多个数据源直接整合成单一数据源进行学习。在充分利用有标签数据源的标签信息与无标签数据源的内部结构信息基础上,分别提出了全局一致化和局部一致化两种标签传播方法,利用此两种方法使无标签数据源的数据样本具有类标签。再次基础上,构建多数据源的集成学习方法,从分类精度、鲁棒性和扩展性等三方面验证了所提算法的有效性。另外,实验结果表明当无标签数据源较多时,局部一致化的标签传播方法效果优于全局一致化的标签传播方法。2)面对多数据源进行学习时,多数据源中可能存在无关的或冗余的数据源。从数据源的重要度和数据源间的冗余度出发,设计了一种基于最大重要度最小冗余度的数据源质量评估与选择算法。其中,重要度表示一个数据源对分类的贡献程度,冗余度表示不同数据源之间蕴含信息的重叠程度。最后,通过选择前p%个数据源进行多数据源的集成学习。实验结果表明该度量方法能有效地选择与任务相关的数据源。3)商场随着销售量的日益增长,存储了大量与时间相关的事务型销售数据。通过将销售数据按时间划分为多个时间戳数据库。针对多个时间戳数据库构成的多相关数据库,提出了一种以挖掘稳定模式为代表的有效算法。该算法首先通过定义两个约束条件:minsupp和varivalue以定义稳定数据项,然后基于灰色关联分析方法度量稳定数据项之间的相似度。在此基础上,提出了一种层次灰色聚类方法挖掘由稳定数据项组成的稳定模式。从模式的有效性、时间效率及拓展性等方面验证了所提算法的有效性。
其他文献
随着信息技术的快速发展,流式数据以不同方式出现在了众多领域的应用之中。包括网络流量的监测、金融应用、通信数据管理、网络安全监控、传感器网络等等。在这些应用中,对新
中国是茶叶的故乡,已经拥有四千多年的历史,是我国传统文化之一。英国把茶饮作为国饮,茶文化涉及西方社会经济文化风俗语言各个方面。我们在大学英语教学中,把东西方茶文化结
<正>~~
会议
近些年来,在中国近代史研究中,出现了一些值得注意的倾向:有些论者把今天中国的现代化等同于历史上畸形的"近代化",并进而以现实去阐释、比附历史,从而肯定了不该肯定的外来侵略者的
在刚刚过去的2016年第一季度,广州楼市貌似迎来了春天,尤其在3月份点燃了引爆点,新建商品住宅成交超过1万套,比上海和深圳加在一起的成交套数总和还要多,创下2014年以来的三年新高
在新媒体时代,分享已经成为媒体使用的最重要的特质,是否能分享,已成为了人们关注新闻与否的重要依据。
本文将通过成都市部分高校武术与民族传统体育的学生作为研究对象,应用文献资料法、实地访谈法、对比分析法等研究方法,对传统体育和休闲体育进行分析。最终得出结论:学生对
职业学校引进AHK资格认证制度的职业体系建设,实施双元制本土化模式,对校企合作有很好的促进作用。文章从实训基地规范化建设、规范化管理、产学研结合三方面论述了AHK制度对
网络虚拟实验室是通过整合终端技术与网络技术,为医学检验专业学生提供网络实验环境的全新教学模式。网络虚拟实验室具备突破传统教学时空限制的优势,但在实际应用中需要结合临
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield