基于TreeMiner算法的XML文档结构相似度量方法

来源 :计算机应用研究 | 被引量 : 2次 | 上传用户:yydfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
提出了一种基于TreeMiner算法挖掘频繁子树的文档结构相似度量方法,解决了传统的距离编辑法计算代价高而路径匹配法无法处理重复标签的问题。该方法架构了一个新的检索模型—频繁结构向量模型,给出了文档的结构向量表示和权重函数,构造了XML文档结构相似度量计算公式;同时从数据结构和挖掘程序上对TreeMiner算法进行了改进,使其更适合大文档数据集的结构挖掘。实验结果表明,该方法具有很高的计算精度和准确率。
其他文献
以信息安全理论和软件逆向工程技术为依托,研究了操作系统安全机制复合行为模型掘取技术及其实现方法和技术路线。通过结合操作系统的多尺度软件逆向理解技术,对操作系统安全机制的相关程序进行逆向分析、模型掘取和形式化描述,从而发现潜在漏洞、后门、隐通道等操作系统高层安全机制存在的安全问题,为实施修补、反制及利用等相应安全措施提供有力依据。在该技术基础上实现了一套原型系统,实验验证该系统的程序理解和模型掘取结
介绍了DBF表的文件格式和基于自索引的全文查询算法FM-index。针对DBF文件同时包含二进制文件头和纯文本数据记录的特点,以及对查询结果的特定要求,扩充了现有的FM-index算法,使其支持对DBF文件的压缩查询。测试结果表明,虽然FM-index在压缩/解压时间上与WinRAR仍有一段差距,但是FM-index对压缩查询功能的支持大大提高了文件的查询性能。
提出了一种基于着色算法的并行碰撞检测算法,利用AABB包围盒较好的紧密性和包围球计算简单的优点以及并行算法中的分治策略构建物体的混合包围体层次(S-AABB);然后采用破对称技术中的典型算法——着色算法,将每棵任务树编码,以产生各不相同的类别,并将不同的类别指派到不同的并行机,在并行机上采用多线程技术执行相同的类别的任务树的遍历,来检测是否有碰撞发生。实验结果表明,与现有的经典的I-COLLIDE
实时进程调度算法在任务调度过程中对于公平性体现不够。为了解决这个问题,在Linux2.6.11内核的基础上作了改进,提出了一个兼具公平性和实时性的RMOSA(real-time modified O(1) scheduling algorithm)算法。保留了I/O队列以缩短I/O请求的响应时间,同时采用动态计算优先级和时间片的方法来使通用进程调度达到最优。最后,通过仿真实验的结果比较,证明了RM
为提高H.264编码器中运动估计的速度,提出一种提前识别出有效运动矢量来简化运动搜索过程的快速运动估计算法。在统计分析四种预测运动矢量的预测准确率基础上,算法通过判别预测运动矢量之间的关系,有针对性地设置自适应阈值,从而较快识别出有效运动矢量,终止无效的运动搜索。实验结果表明,应用在UMHexagons算法和Simplified UMHexagons算法中,可以将运动估计时间分别节省19%~60%
重点介绍了智能可视化的各种形式和内容,包括研讨信息统计可视化、关注水平及其状态可视化、共识水平及其状态可视化、共识分析可视化、共识变化预测与建议可视化等,并最终在ECBAR系统中实现了其功能。
提出了一种应用于分类问题,以分类回归树为基学习器,并综合了AdaBoost.M1和Bagging算法特点,利用变相似度聚类技术和贪婪算法来进行选择性集成学习的算法——SEC-AdaBoostBaggingTrees,并将其与几种常用的机器学习算法比较研究得出,该算法往往比其他算法具有更好的泛化性能和更高的运行效率。
现有的联盟生成方案多针对一个agent只能加入一个联盟,不利于联盟总效用的最大化以及联盟中agent能力的充分利用。提出了基于能力类别的agent分解策略,通过定义子agent使得agent可以同时加入多个联盟,在此基础上设计了基于二维离散粒子群的多任务串行联盟生成算法,并对粒子的惯性权重进行动态自适应调整;最后通过算例验证了该方法的有效性。
目前常用向量空间模型VSM(vector space model)表示文档,造成的高维问题制约了其实际应用的效果。采用了一种高性能特征选择函数,在构建VSM时选取对区分类别贡献较大的特征词,因此有效地降低了特征空间的纬度,大大提高了系统的效率,改善了聚类的效果。通过真实数据集上的实验,证明其性能优于传统方法。
重点研究了不同身份标志域中用户与服务提供者之间的信任关系建立问题,提出了基于可信移动平台的移动身份管理框架。将可信移动平台提供的可信引导、远程平台证明和可信票据机制集成到框架中以建立不同身份标志域间的信任关系。由于移动平台的计算和存储能力有限,该框架协议呈现了服务器完成了大部分计算的不平衡特征。该框架以用户为中心并抵抗各种攻击,增强了安全性能。