关系数据分类算法的研究

来源 :燕山大学 | 被引量 : 0次 | 上传用户:nibeibei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统数据挖掘的对象是单一关系表中的数据。对于许多实际应用,数据是存储在多个关系表中,先要把多关系数据集成到一个单一关系中,这需要大量的预处理工作,并且会导致信息丢失和数据的冗余等多方面的问题,因此需要开发能直接在多表数据中进行挖掘的算法。多关系数据挖掘算法因此应运而生,它无需将数据转换到单一表中,而是直接在多表中对数据进行挖掘。另外对于复杂的和结构化数据对象的数据挖掘也处于这一领域的研究范围内。分类是数据挖掘的一个重要任务,但由于关系数据结构复杂现有的关系分类算法,或者是搜索空间巨大而效率低下;或者是建立的模型描述的不够精细而分类精度不高,本文针对关系分类算法的这些问题,提出了两个新的算法。首先,针对关系分类算法Graph-NB描述不够细致的问题,提出了ASNBC算法,拓展了Graph-NB中语义关系图定义,增加了顶点权值,使拓展的语义关系图(ESRG)不仅可以表示关系表间的语义关系,而且可以具体给出关系表中哪些属性对分类有影响,这有助于用户更好的理解数据,便于实际应用;另外ASNBC算法根据各关系表对分类任务影响程度的不同,将各关系表划分为三类,对这三类关系表采用不同策略来挑选出对分类任务有影响的属性,构建拓展语义关系图;最后依据拓展语义关系图,使用朴素贝叶斯方法对未知类标号的元组分类。实验表明同其它多关系算法相比,ASNBC算法高效且精确。其次,利用神经网络模型的容错性和精度高等优点,提出RNC算法,拓展神经网络将其应用于关系数据库中的0-1分类问题,其中网络模型的建立参考数据库关系模式这个先验知识,建立的模型比较简单,具有很好的可解释性;另外给出了一种评分机制来衡量目标对象属于正类的程度。在实际应用数据库上的实验表明,该算法具有很高分类精度和一定效率。
其他文献
随着软件系统的规模和复杂度的不断增大,软件开发所关注的焦点已不再是算法和数据结构,而是作为软件系统总体结构和组织的软件体系结构。软件体系结构在软件系统的设计和实现中
近几年来,随着计算机技术、通信技术和互联网技术的飞速发展,视频会议系统作为新型多媒体应用的典型代表其研究和应用越来越受到关注。同时SIP(Session Initiation Protocol,
本文结合海鼎公司的软件产品现状提出了基于SOA的商业流通领域的软件集成的架构,并着重研究了在该架构下的应用集成平台的设计中需要解决的两个问题—单点登陆的身份认证问题
信息资源规划的主要成果就是建立起集成化的信息系统模型,包括功能模型、数据模型和系统体系结构模型。传统的信息资源规划建模过程主要是业务人员之间、业务人员与系统分析
传统的软件度量方法己不能对大型软件进行有效度量,因此如何度量大型软件成为软件领域的一个挑战。近年来,研究者发现软件结构网络展现出复杂网络特性,又因软件的系统(拓扑)
本文主要针对直拍横打技术的现状及发展趋势,与横拍反手位技术进行比较分析研究直拍横打关键技术的特点,针对直拍横打技术存在用力不足、击球点难掌握和腕关节用力不足等弱点,根
近几年,人与人之间的交流越来越依赖社交网络,各种社交媒体的用户量也迅猛增涨。随着社交网络体量的增大,信息在社交网络上往往会得到爆炸式传播。人们也逐渐发现,相对于传统的新
随着计算机软件的日益复杂,软件可信的要求越来越高,特别是在航空、航天、金融、证券、交通等领域尤其如此。可信要求软件具有高可靠性和高可用性。软件中隐藏的缺陷数目直接决
现代经济高速运转的需求带动了信息技术的迅猛发展,而信息化管理成为了企事业单位生存和发展所采用的普遍对策,建设教学管理信息系统是现代学校信息化管理的重要基础和核心内
随着多核处理器的不断发展,应用程序对计算机性能提出了更高的要求,然而由于多核处理器每个核心的处理能力通常都比以往的单核处理器弱,使用多核处理器并不能直接带来高性能,