基于Trie树的字符串检索算法研究

来源 :中国计量大学 | 被引量 : 0次 | 上传用户:plutuscty
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着互联网技术的快速发展和智能移动设备的普及,网络上的数据资源正成指数级增长,对于人们来说如何在这些海量信息中进行有效存储、检索成为数据管理领域一个亟待解决的问题。首先,字符串检索必须能够尽量用最少的空间存储越来越多的字符串数据,这些字符串集合往往包含了几百万甚至上千万的信息,而且还在不断增长。其次,字符串检索还要考虑查找信息的时间效率,能否用最快的速度找到需要的信息是用户对各类信息检索算法性能优劣的重要评判标准。因此为字符串资源研究出一种新型的存储结构、索引算法就变得很有意义。本文的主要工作如下:1、对Trie树算法的研究现状、性能评判指标进行了概述。对传统的字符串检索算法和检索字符串的原理进行了描述,提出了基于Trie树的字符串检索算法和改进时空性能的方案。2、根据性能优化策略,完成了可用来检索字符串信息的新Trie树结构的构造,即16-bit Trie树。本文采用软件Visual C++6.0对16-bit Trie树算法进行编码,实现了对字符串数据的存储、检索、删除等功能。3、编码实现原始Trie树结构、VC++的标准库Std map,将他们与本文提出的16-bit Trie树算法进行时间和空间性能比较。通过实验数据分析,证明了本文提出的16-bit Trie树算法在对字符串数据进行检索时,能在保持时间复杂度的前提下,减少信息存储的内存空间,实现较高的构建速度和索引速度。本文提出的基于16-bit Trie树的字符串检索算法具有空间效率高,可以随时对字符串数据进行修改、遍历等特点,很好的解决了Trie树结构的时间和空间平衡问题。
其他文献
近年来,由于受国际政治经济局势不稳定、国家进出口政策调整和国内经济增速减缓等因素的影响,JGLY公司作为山东省一家粮油加工企业,既面临粮油加工市场萎缩等外部压力,也存在
自2012年上海政府数据服务网上线以来,截至目前我国已建成100多个政府数据开放平台。政府数据开放的快速发展也带来了许多问题,诸如开放水平仍然较低、数据资源利用不充分等
近年来,世界沿海地区国家受海啸的影响造成了巨大的损失。由于全球变暖导致极地冰川融化引起了海平面上升,而海平面的上升加剧风暴潮的强度以及频次的增多,这导致我国沿海地区人民的生命财产安全受到了严重的威胁。因此,简单有效的实时海平面监测显得尤为重要。利用全球导航卫星系统反射信号(global navigation satellite system reflection,GNSS-R)来进行实时监测是较为
本论文以准噶尔盆地西缘车排子凸起复杂性原油为重点,利用气相色谱质谱(GC-MS)、串联质谱(GC-MS/MS)和单体烃碳同位素质谱(GC-IRMS)等技术详细研究混源油的地球化学特征,结合烃源岩相关研究及石油地质背景分析车排子凸起复杂混源油的成因机理。全油同位素、原油热解分析及气相色谱分析结果表明,车排子凸起的原油分布呈现“南稀北稠”、“下稠上稀”的总体特征,油源、原油的混合、生物降解程度的不同,
水汽是大气的重要组成部分,是降水产生的基础。它不仅能影响局地的天气与气候,还能通过大气环流和相变过程影响全球的水循环与能量平衡。此外,水汽还是大气中含量最多的温室
随着分布式发电系统的规模不断增大,分布式发电系统对原供电网络的影响也越来越大,需要考虑多个方面的因素。其中,孤岛检测是分布式发电系统稳定运行必须考虑的一个重要问题
智能驱动器在受到外部刺激(光、热、电、湿、磁等)时,可做出响应并执行相应操作或命令,在微型机器人、信息交互、远程遥控等领域具有广阔前景。通过合理的材料选择及科学的结
现阶段,高质量的城镇化发展在我国经济发展中起着重要作用。随着城镇化工作的不断推进,城市用地面积需求不断增加,且城镇土地面积的增速已远超城镇人口的增速,使得城镇呈现无
大量文献研究表明信息共享对不同的供应链主体成员产生的效用不同。同时,横向信息共享产生的作用效果会因横向企业产品之间存在的关系紧密联系。当零售商总是依靠供应商供应产品时,供应商的存在会抑制信息共享的作用。但本文认为增加远期市场,即提前进行市场需求预测并向供应商发出订货,会使得这一抑制作用发生转变,并且这一提前购买行为的发生,可以有效降低当真正的需求发生时,供应商恶意提高价格的风险。本文假设企业和零售
软件克隆指相似的代码实现了同样的功能,通常当人们通过复制粘贴操作来重用代码时,软件克隆就会被引入,这不仅侵犯了被克隆的软件的知识产权,还容易引入软件缺陷。长此以往下