论文部分内容阅读
Internet使人们获取信息更加方便和快捷,但是由于网上的信息浩如烟海,并且不断快速增长,而其中绝大多数对用户来说是无关的,所以如何在网络中找到自己所需的信息成了一个重要问题。搜索引擎是在一定程度上帮助人们解决这个问题,但是它并不能完全满足用户的需求。本文即是在此背景下,针对目前搜索引擎模型分析,提出一种新的搜索引擎模型,同时利用数据挖掘方法来解决网络上某些信息检索问题,内容主要涉及到如何构造合理的搜索引擎模型,如何有效的组织网络资源,如何发现网络中蕴涵的资源和如何对已经得到的数据进行维护等。本文的创造性研究成果主要有:(1)在分析目前搜索引擎模型的基础上,从模型的结构角度提出一种新的搜索引擎模型(混合模型),它能快速、准确地发现用户所需的信息,并分析实现该模型所需要的关键技术。(2)根据Fisher判别方法的思想提出了一种有效的有监督层次文档分类算法(HDCF),该算法主要将文档按照主题进行层次分类,利用Fisher线性判别式的思想来提取每一类的正特征词和负特征词,然后根据这些特征词对给定文档进行分类。该算法不仅克服一般层次分类算法中假定特征词之间必须满足独立性的条件,而且能处理一个文档涉及多个类的分类问题。在实验中,采用召全率和准确率2个指标与其它算法进行比较,实验结果表明:HDCF的效果好于其它算法。(3)为了满足在线学习文档分类需要,本文根据自适应谐振理论提出了半监督学习自适应谐振理论系统。在该系统中取消了一般半监督学习算法中假定已知数据概率分布的条件限制,利用自适应谐振理论的稳定性和可塑性,使其具有非常强的学习新模式和纠正错误能力。为了提高系统自适应性能力,将警戒参数设置为动态变化。实验结果表明半监督学习自适应谐振理论系统的性能优于判别式CEM算法,特别是在含有噪音和新模式数据情况下,其优势更为明显。(4)针对已有的周期性关联规则模型的局限性,提出一种新的周期性关联规则模型。此模型通过聚类分析可以将一个周期分成若干个长度不等的时间段,并给出该算法,实验结果表明这样可以更准确地发现周期性关联规则。同时,因为数据的稀疏性,在底层或原始的数据之间很难找到满足用户需求的周期性关联规则,而有很多数据是分层,在较高层次上可以发现的周期性关联规则,所以,又提出周期性一般关联规则算法(CGI)。由于周期性一般关联规则对数据噪声非常敏感,用噪声比来抑制数据噪声对发现周期性一般关联规则的影响。同时根据对周期性与一般频繁项集之间关系的分析,利用周期裁剪技术来节省挖掘时间。本文中给出了CGI算法,同时还对发现规则的有意义性和冗余性进行判断和处理。实验证明,该算法可高效地发现周期性一般关联规则。(5)关联规则是要从大量的数据中找到数据之间的规律,但有时所产生的规律十分繁多,从而形成新的知识管理问题。针对该问题本文提出了一个新的算法,该算法利用系统聚类分析方法对规则进行分组,从而更好地帮助用户理解所发现的规律,由于该方法的距离(RatioD)是基于关联规则本身,因此,可对规则进行高效地分组。实验结果表明,该算法是有效的。(6)对于维护已发现的序列模式方法主要有两种,一种是简单地利用已有的挖掘序列模式算法对更新后的整个数据库进行操作,这种方法涉及数据库中的数据不仅有改变的部分而且有未改变的部分,而未改变的数据数量很大,当更新频率高时,代价是非常大的;另一种方法是根据库中记录数目改变多少来决定何时对整个数据库进行操作,但是记录数目变化大并不能代表序列模式变化也大,因此本文利用样品抽样的方法来评估序列模式改变的程度,并根据改变的程度决定何时对整个数据库进行操作来更新序列模式,从而较好地解决了序列模式维护的问题。