支持局部过滤的近似字符串匹配系统

来源 :东北大学 | 被引量 : 0次 | 上传用户:vinejue
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的发展,互联网已经成为人们生活中不可或缺的重要组成部分。搜索引擎、信息查询和社交网络在人们生活扮演着越来越重要的角色。字符串匹配在这些领域中被广泛地应用。因此,对于字符串匹配算法的研究具有一定的理论研究意义和重要的实际应用价值。近年来,随着近似字符串匹配技术的广泛应用,越来越多的学者参与到近似字符串匹配问题的研究中。近似字符串的匹配问题,不同于精确字符串匹配,允许在匹配中存在一定的误差,其匹配结果集更大,算法的空间复杂度和时间复杂度更高。目前主要的解决方法是利用字符串间的局部相同,然而该方法在查询串与数据串间的差异较大时会变尤为低效。本文基于查询串和数据串间的差异,提出一种算法来实现近似字符串的过滤查询。本文提出了 一个称为局部距离的概念用来量化一个查询串中的子串与数据串间的差异。查询串子串的局部距离和是查询串和数据串间编辑距离的下界,使用这个下界进行过滤。本文设计了一系列索引结构来支持局部过滤,索引中存储了所有可能的查询串子串相对于所有数据串的局部距离值。通过仔细的观察和分析字符串局部距离之间数学关系,本文设计出了不会影响过滤效果但体积很小的索引结构。接着提出了带有位置约束的局部距离的概念。又设计出高效的位并行查询算法。为了处理不确定的查询阈值和不确定的chunk长度,改进了查询算法。实验结果显示局部过滤算法与现有的其它算法相比较,过滤效果、查询时间、索引体积大小方面都有很大优势。
其他文献
对于以往的机器人控制系统而言,其获取周围环境信息的途径大多是激光、雷达和定位系统等,而近些年机器视觉的发展让人们发现了信息获取的新途径,进而诞生了机器人视觉伺服控
伴随城市轨道交通迅速发展,列车设备愈加复杂,设备故障排查难度逐渐增大。列车事件记录仪作为列车安全设备之一,记录列车设备实时运行状态,为列车故障分析以及运营维护提供数据支撑,具有法律依据。针对国外列车设备技术垄断,国内城轨列车事件记录仪记录数据不全面,存储器安全防护不够,数据安全系数不高等方面问题,研究一种软硬件可配置化、具有数据加密算法的列车事件记录仪是具有重要意义的。本文通过分析TCN列车通信网
目前,MPTCP(Multipath TCP)协议是多路径传输研究领域研究的热点问题。实现MPTCP的最终部署,关键需要调度算法和拥塞控制机制的协作。MPTCP协议是将传统TCP流量划分为多个子
学生评价是以学生为评价对象的教育评价,是评价者依据一定的价值标准对学生的学业成就、个性发展、品德状况、体制体能等方面进行价值判断,并把判断结果反馈于教育实践以改进
半导体材料的发展是社会生产力进步的基石,ZnO作为一种新型的半导体材料因其优异的性能在光电器件领域有巨大的应用潜力。但ZnO中存在的大量本征点缺陷导致ZnO的发光行为变得
高盐废水脱氮过程中常产生大量的N_2O,对环境不利,因此有必要进行试验研究并且建立一个模型来探索高盐环境下N_2O的产生特征和产生机理。本研究中采用稳定运行在高盐环境下的序批式生物膜反应器(SBBR),考察在不同运行模式(厌氧/好氧/缺氧(An/O/A)模式和厌氧/好氧(An/O)模式)和不同碳氮比(COD/N)条件下,硝化反硝化过程及N_2O产生特征。在实验研究的基础上,一个结合三种N_2O释放
在半导体行业中,图案化技术至关重要。随着集成电路的高度小型化和集成化发展,作为目前半导体行业的核心技术,光刻技术面临着衍射极限带来的技术复杂化和制备成本大幅度提高
过去的近二十年间,我国风电事业快速发展,装机容量多年稳居世界首位。风能提供清洁、可再生能源的同时,也暴露出诸多问题,其中,由于处于高空、不稳定载荷、极端温差等运行环境中,风电机组的故障率较高,传动部件的故障会导致较长的停机时间,严重影响发电量和经济效益。状态监测与故障诊断是保证风电机组可靠运行、减少运维成本的关键技术。振动监测作为状态监测的主流技术,在风电机组应用广泛,但也存在诸多不足,例如振动分
基于动态搜索的Web应用测试通过动态搜索Web应用的用户接口状态空间,实现Web应用的自动化测试。Web应用用户接口状态空间大多具有指数级复杂性,“穷尽搜索”易陷于局部或不相
随着计算机与信息技术的快速发展,实时嵌入式系统在人们的现实生活中得到了广泛的应用。在现有的嵌入式系统设计中,通常采用相应的任务模型对系统进行抽象。相对于大部分已有