基于密度方法的XML文档聚类研究

来源 :湖南师范大学 | 被引量 : 0次 | 上传用户:rxw257
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社会信息化进程的不断深入发展,人类对信息的需求和依赖程度越来越高,如何从海量的信息资源中快速有效地获取有用的信息,已经成为研究的热点。目前文本聚类的方法主要有划分聚类法、层次聚类法、自组织映射法、基于遗传算法的文本聚类法等,由于XML文档是一种半结构化的文本,其语义信息可以通过文档结构得以描述,所以并不是所有的文本聚类算法都适合于XML文本聚类,而目前XML文档聚类中应用最多的主要为划分聚类法和层次聚类法两种。这两种方法的主要缺陷在于仅局限于发现球状聚类类型,对于非规则的,任意形状的聚类类型无法实现有效聚类。XML作为一种通用的数据交换载体,在海量数据的存储中,其本身的文件结构始终具备多样性,所以有必要采用一种新的聚类方法来对其进行聚类。另外,在传统的文本语义聚类领域的聚类模型中向量空间模型、布尔模型、概率模型、集合运算、支持向量机和潜语义标引模型等,均是以文档集合中出现的单词词频作为特征项来检索,并没有考虑到单词所位于的结构层次,因而不能有效地针对XML这种结构嵌套的文件进行聚类。本文在前面两种聚类方法的基础上提出一种新的基于DBSCAN的结构相似性聚类算法,其可以用来发现非规则的,任意形状的聚类类型。同时,针对XML文档集所具备的“结构嵌套”的特性进行研究,本文还提出了一种新的XML分层语义聚类方法,将关键词所处的层级位置作为一个重要因素实现一种新的语义聚类算法,同时在语义比较时进行模糊而不是完全匹配,利用该方法相比传统的文档聚类技术可以更加有效地在语义层面对XML进行聚类。
其他文献
传统的家电已经无法满足现代家庭的需要,人们需要能够自动获取外界信息、能与其它家电协同合作并具有智能化的信息家电(IA),因此信息家电智能化的发展是未来家庭发展的必然趋
XML自1998年由W3C提出之后,已经成为因特网上数据表示和数据交换的新标准,各行各业都在使用XML描述本领域信息,随着XML文档的急剧增加,如何有效存储、管理和查询这些XML数据
随着Internet迅猛发展,接入Internet的用户数量剧增以及服务网络固有的延迟,造成Web服务器负载和用户访问延迟严重等一系列问题,用户的服务质量得不到很好的保证。缓存技术能
随着计算机系统性能的不断提高、存储数据量急剧增加以及信息越来越复杂,用户如何高效组织和管理信息成为信息技术的重要课题。文件系统作为操作系统中存储和管理信息的主要构
随着Web服务技术鉴于其封装性、松耦合等特点获得了的广泛应用,众多的服务提供商将他们的服务以Web服务的形式封装并发布。相应的,消费者对于服务的功能、反应速度、服务质量
随着我国经济体制和行政体制改革的深化,社会正处于转型期,在这种形势下,要求政府及时主动公开政府信息,加强与公众之间的沟通,为公众提供高效便捷的服务,履行公共服务的职能
随着通讯与计算技术的不断发展,无线传感器网络正在发挥越来越重要的作用。无线传感器网络通过传感器节点收集并传输观测数据,最终将观测数据交付观察者。它跟传统无线网络最
数据挖掘是指从大量的、不完全的、有噪声的、模糊的数据中提取出隐含在其中的、人们事先不知道的但又潜在有用的知识的半自动化的方法,它是解决“数据丰富、信息贫乏”的有
一个网站由许多个网页组成,网站上的信息分布在这些网页上,而不同用户对不同网页上的信息感兴趣,现在随着网络技术的高速发展,网络上的信息呈指数增长,所以人们要想在众多的信息资
随着Web技术的发展,互联网上出现了一系列基于内容的图像检索应用,即“以图找图”。石材图像检索系统是为石材行业开发的一个基于Internet环境的实用信息系统,该系统可通过石