基于编辑距离的XML文档结构聚类的改进算法

来源 :微计算机应用 | 被引量 : 0次 | 上传用户:dh184866884
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当前XML文档结构聚类算法的一些不足,指出XML文档树中节点的重复和嵌套影响聚类的质量和效率。利用重复剪枝和嵌套剪枝简化XML文档树的表示,然后根据化简后的结构计算两棵XML文档树中的编辑距离,在此基础上得出两棵树整体的结构相似度量,按照层次聚类方法得到聚类结果。实验证明该算法有比较高的查全率和查准率,有效降低了时间复杂性,具有改进效果。
其他文献
分析了语音浏览器的概念和框架,以及语音输入、对话管理和响应生成整个口语对话过程的标记规范,重点说明了语音浏览器的核心标准VoiceXML的原理和工作特性,并描述了应用语音浏览器创建口语对话系统的整体方案。以此为基础,本文给出了语音浏览器在股票交易系统中的具体应用实例。通过语音浏览器平台,可以创建灵活性很强的混合主导对话模式的口语对话系统。
本文介绍了VRML及其一些高级应用,着重阐述了VRML的交互性,并给出了实例,提供了两种生成按钮的方法,对VRML和Java Applet结合生成按钮的方法做了详细的介绍,具有一定的实用性