论文部分内容阅读
随着数据库、网络以及各种信息技术的迅猛发展,许多实际应用领域如:传感器网络、商业交易、社会媒体分析等数据的描述信息变得越来越多,产生了种海量、多源和异构表现形式的数据。这些多源异构数据蕴含着丰富的知识和有用的信息。然而,由于多数据源具有异构性、自治性、复杂性、不一致性等特征,使得传统的数据挖掘技术面临着巨大的挑战。因此,开展多数据源环境下标签传播、数据源质量评估、模式挖掘等知识挖掘研究具有重要的研究与应用价值。本文主要研究内容如下:1)由于数据源之间结构的不一致性,很难将多个数据源直接整合成单一数据源进行学习。在充分利用有标签数据源的标签信息与无标签数据源的内部结构信息基础上,分别提出了全局一致化和局部一致化两种标签传播方法,利用此两种方法使无标签数据源的数据样本具有类标签。再次基础上,构建多数据源的集成学习方法,从分类精度、鲁棒性和扩展性等三方面验证了所提算法的有效性。另外,实验结果表明当无标签数据源较多时,局部一致化的标签传播方法效果优于全局一致化的标签传播方法。2)面对多数据源进行学习时,多数据源中可能存在无关的或冗余的数据源。从数据源的重要度和数据源间的冗余度出发,设计了一种基于最大重要度最小冗余度的数据源质量评估与选择算法。其中,重要度表示一个数据源对分类的贡献程度,冗余度表示不同数据源之间蕴含信息的重叠程度。最后,通过选择前p%个数据源进行多数据源的集成学习。实验结果表明该度量方法能有效地选择与任务相关的数据源。3)商场随着销售量的日益增长,存储了大量与时间相关的事务型销售数据。通过将销售数据按时间划分为多个时间戳数据库。针对多个时间戳数据库构成的多相关数据库,提出了一种以挖掘稳定模式为代表的有效算法。该算法首先通过定义两个约束条件:minsupp和varivalue以定义稳定数据项,然后基于灰色关联分析方法度量稳定数据项之间的相似度。在此基础上,提出了一种层次灰色聚类方法挖掘由稳定数据项组成的稳定模式。从模式的有效性、时间效率及拓展性等方面验证了所提算法的有效性。