论文部分内容阅读
XML(e Xtensible Markup Language)是因特网中信息描述、传输和交换的重要标准,而XML文档聚类是众多XML文档整合和管理技术中关注的焦点,其目标是有效整合XML文档使之便于存储和传输。相似度计算则是XML文档聚类的关键步骤,而传统XML文档相似度计算方法中,树编辑距离算法时间复杂度较高,元素比较法丢失文档结构特性,边与路径比较法过于局限,扩展性差,而向量空间计算法虽计算简便,但多数算法因其特征权重设定导致无法完整保留文档结构特性。论文着眼于XML文档的特征权重设定,分别从相似度计算和聚类算法选择两方面进行研究,并取得了如下成果:1、论文研究了计算XML文档相似度的pq-gram算法。XML文档的结点在不同XML文档树中所处层次以及本层次中位置都会有所不同,而这些不同正是XML文档结构特性的一种体现,但pq-gram算法在提取pq-gram时未考虑这一点。鉴于此,论文提出了一种新的带权pq-gram算法,通过全面考虑XML文档树中结点的层次及位置,结合其父节点所处的位置,为XML文档结点以及pq-gram设计了全新的权重设定方法,并在权重设定的基础上改进了其相似度计算方法。最后通过聚类算法对三个真实数据集进行聚类,比较聚类精度的优劣以及各聚类簇之间的相似度。2、在此基础上,论文进一步研究了常见的XML文档特征向量提取方法,发现大多数特征提取算法只是针对XML文档结构特性对特征进行权重设定,未考虑各特征之间是存在偏好关系的。事实上,XML聚类不能完全通过结点在XML文档中的层次来判定它对于聚类的重要性。论文在此基础上研究了基于特征偏好的聚类(Clustering with feature order preference,CFP)算法。论文在带权pq-gram算法对XML文档进行特征向量提取的基础上,结合CFP算法,提出了基于特征偏好的XML文档聚类(CXFP)算法。CXFP算法可结合pq-gram权重以及特征偏好权重两个方面,并利用CFP算法的特点,在聚类过程中动态调整特征偏好权重。实验表明CXFP算法通过加入了特征偏好,可显著提高聚类的精度。3、分析了当前国内机场噪声现状,并介绍了对其分析研究的必要性,在此基础上,将CXFP算法应用于机场噪声数据的聚类中,根据不同的聚类需求为数据特征设定偏好权重,实验结果表明,CXFP算法较之其他聚类算法可以取得较优的聚类效果。