基于多关系转化的分类方法研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:dennaxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的快速发展和广泛应用,每天都在产生大量的数据。如何在“数据丰富,但信息贫乏”的环境中发现有价值的、有趣的、具有指导意义知识,是数据挖掘的重要任务。同时,数据挖掘也受到了越来越多研究者的关注。而分类研究作为数据挖掘的重要课题,被广泛地应用于商业决策、医疗诊断等方面。结构化的关系数据作为分类研究的主要对象,通常来源于真实的关系数据。然而,直接从关系数据库中获得的多关系数据,相比较于单一的关系数据而言,更具有天然性。但传统分类方法仅适用于单一关系的数据。因此,为了将传统的分类方法应用于多关系数据中,并做出有效的分类预测,需要建立一个从多关系到单关系的桥梁,将多关系数据有效地转换为传统分类方法能处理的单关系数据。所以,本文基于多关系转化这一主要思想,构造了多关系转化模型,并在此基础上提出了IWT以及MRT两种算法。它们分别利用不同策略,有效地提高了多关系转化的效率,解决了转化过程中的统计偏差及衍生问题,并获得了较好的预测效果。本文的研究工作从以下几个方面展开:(1)建立高效的连接路径。通过分析关系间连接属性的对应关系,利用广度优先遍历方法,重新对连接树进行构造。提高了传递的效率。(2)构建关系选择模型。从多关系全局来看:在多关系数据中,目标关系仅仅有一个,而关系数据库中包含了海量的背景关系。在这些背景关系中,并不是每一个关系都包含了对用户或者分类具有重要意义的属性。因此,为了提高挖掘效率,构建关系选择模型,消除冗余关系是转化过程的重要基础。(3)提出基于多关系数据的特征选择方法。从关系内部看:并不是所有属性都是用户关心的或者对类别有较大区分性的。因此,在多关系的数据中进行特征选择,有利于预测性能和效率提高。(4)转化过程中统计偏差问题的分析和处理。关系间元组的一对多映射和多对一映射,以及转化过程中的空值问题,是引起属性重要性在转化前后不一致的根本原因。因此,本文提出了基于元组转化和实例加权转化两种解决策略,保持转化前后属性的重要性一致。实验证明,转化策略在保持了统计一致性的前提下,利用传统分类方法获得了较好的预测效果。
其他文献
我们当前所处的时代是一个信息大爆炸的时代,由于信息技术的发展,特别是互联网的出现,产生并要处理的数据已经达到了PB(1PB=1024TB)级、EB(1EB=1024PB)级、甚至更多,这种级别
随着我国机动车占有率的迅速提高,交通事故的发生率也迅速上升,为了有效遏止交通违章行为、保障车辆行驶安全、减少交通事故的发生,人们研究开发了车辆行驶记录仪。但目前上
随着计算机仿真技术的不断发展,计算机仿真在各个行业的重要领域得到了广泛地应用,成为各种复杂大系统仿真的重要手段。随着仿真应用的不断深入,仿真规模越来越大,大规模分布
大规模群体运动现象,例如群集的鸟类等动物群体、雨雪等颗粒、细菌等微观个体,是自然界中广泛存在的现象。这类现象在许多研究领域都是人们关注的热门研究对象,例如在生物行
目前投影显示系统应用的主要限制是必须将图像投到高质量的白色影幕上。如果能把生活中随处可见的墙壁、天棚、木门、窗帘等当作影幕,将会使投影系统有更多更广泛的应用。但
作为组合优化中经典的NP-hard问题之一,旅行商问题(TSP)在实际生产中有广泛的应用,如物流路线规划、电路板印刷等。对该问题的研究不管是在实际应用中还是在科学研究中都有十
近年来,随着移动互联网的快速扩展和定位技术的日趋成熟,与位置社交网络相关的服务平台和信息被广泛应用于生活中。位置服务的广泛应用使得大量的位置数据得以积淀下来,这为
随着媒体和社交网络的发展,人脸年龄与性别识别在现实生活中的应用越来越多,吸引了广泛的研究兴趣。由于人脸图像的生物特征识别是非接触的,比较简单快速,还具有一定的娱乐性
互联网技术已经给人类社会带来翻天覆地的变化,人们已经习惯于从互联网上获取各类信息,这得益于搜索引擎技术的发展。然而,搜索引擎仍然有一些问题没有解决。首先是用户检索时,相
由于变频调速器在调速和起制动性能,高精度、高效率、高功率因数和节电方面的重要作用,在工矿企业得到广泛的应用。在使用变频器时,需要监测其运行工况,合理地设置其工作参数