论文部分内容阅读
传统数据挖掘的对象是单一关系表中的数据。对于许多实际应用,数据是存储在多个关系表中,先要把多关系数据集成到一个单一关系中,这需要大量的预处理工作,并且会导致信息丢失和数据的冗余等多方面的问题,因此需要开发能直接在多表数据中进行挖掘的算法。多关系数据挖掘算法因此应运而生,它无需将数据转换到单一表中,而是直接在多表中对数据进行挖掘。另外对于复杂的和结构化数据对象的数据挖掘也处于这一领域的研究范围内。分类是数据挖掘的一个重要任务,但由于关系数据结构复杂现有的关系分类算法,或者是搜索空间巨大而效率低下;或者是建立的模型描述的不够精细而分类精度不高,本文针对关系分类算法的这些问题,提出了两个新的算法。首先,针对关系分类算法Graph-NB描述不够细致的问题,提出了ASNBC算法,拓展了Graph-NB中语义关系图定义,增加了顶点权值,使拓展的语义关系图(ESRG)不仅可以表示关系表间的语义关系,而且可以具体给出关系表中哪些属性对分类有影响,这有助于用户更好的理解数据,便于实际应用;另外ASNBC算法根据各关系表对分类任务影响程度的不同,将各关系表划分为三类,对这三类关系表采用不同策略来挑选出对分类任务有影响的属性,构建拓展语义关系图;最后依据拓展语义关系图,使用朴素贝叶斯方法对未知类标号的元组分类。实验表明同其它多关系算法相比,ASNBC算法高效且精确。其次,利用神经网络模型的容错性和精度高等优点,提出RNC算法,拓展神经网络将其应用于关系数据库中的0-1分类问题,其中网络模型的建立参考数据库关系模式这个先验知识,建立的模型比较简单,具有很好的可解释性;另外给出了一种评分机制来衡量目标对象属于正类的程度。在实际应用数据库上的实验表明,该算法具有很高分类精度和一定效率。