论文部分内容阅读
随着信息技术的快速发展和广泛应用,每天都在产生大量的数据。如何在“数据丰富,但信息贫乏”的环境中发现有价值的、有趣的、具有指导意义知识,是数据挖掘的重要任务。同时,数据挖掘也受到了越来越多研究者的关注。而分类研究作为数据挖掘的重要课题,被广泛地应用于商业决策、医疗诊断等方面。结构化的关系数据作为分类研究的主要对象,通常来源于真实的关系数据。然而,直接从关系数据库中获得的多关系数据,相比较于单一的关系数据而言,更具有天然性。但传统分类方法仅适用于单一关系的数据。因此,为了将传统的分类方法应用于多关系数据中,并做出有效的分类预测,需要建立一个从多关系到单关系的桥梁,将多关系数据有效地转换为传统分类方法能处理的单关系数据。所以,本文基于多关系转化这一主要思想,构造了多关系转化模型,并在此基础上提出了IWT以及MRT两种算法。它们分别利用不同策略,有效地提高了多关系转化的效率,解决了转化过程中的统计偏差及衍生问题,并获得了较好的预测效果。本文的研究工作从以下几个方面展开:(1)建立高效的连接路径。通过分析关系间连接属性的对应关系,利用广度优先遍历方法,重新对连接树进行构造。提高了传递的效率。(2)构建关系选择模型。从多关系全局来看:在多关系数据中,目标关系仅仅有一个,而关系数据库中包含了海量的背景关系。在这些背景关系中,并不是每一个关系都包含了对用户或者分类具有重要意义的属性。因此,为了提高挖掘效率,构建关系选择模型,消除冗余关系是转化过程的重要基础。(3)提出基于多关系数据的特征选择方法。从关系内部看:并不是所有属性都是用户关心的或者对类别有较大区分性的。因此,在多关系的数据中进行特征选择,有利于预测性能和效率提高。(4)转化过程中统计偏差问题的分析和处理。关系间元组的一对多映射和多对一映射,以及转化过程中的空值问题,是引起属性重要性在转化前后不一致的根本原因。因此,本文提出了基于元组转化和实例加权转化两种解决策略,保持转化前后属性的重要性一致。实验证明,转化策略在保持了统计一致性的前提下,利用传统分类方法获得了较好的预测效果。