相似字符串匹配过滤算法研究

被引量 : 0次 | 上传用户:huanjian1012004
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
相似字符串匹配是计算机科学中的一个基础问题,它在很多领域都有广泛的应用,如信息检索、计算生物学和模式识别等。研究快速、准确和低耗的相似字符串匹配算法对这些方向的发展有一定的推动作用。q-gram索引具有语言独立性和高容错性,适合中文处理。过滤算法能根据过滤条件快速抛弃文本中与匹配无关的文本片段,适合大库查找。q-gram索引和过滤算法经常结合使用,q-gram过滤算法因其简单、快速而得到广泛应用。为对中文语料库进行相似字符串匹配,提高q-gram过滤算法的匹配速度,本文主要从中文索引结构、索引优化、匹配区域特征挖掘等方面进行研究。为对中文语料库进行相似字符串匹配,本文提出一种中文Bigram二级哈希索引结构,索引中使用哈希函数把中文GB2312编码表中的所有汉字映射到一维连续的整数空间中,并采用二级存储方式存储中文Bigram项。为提高索引速度和减少索引占用空间,本文对索引进行了优化。采用链表式内存管理方案对地址列表的内存分配进行管理,这种方法提高了内存的使用效率。采用了索引压缩技术减少索引占用的内存空间,实验中针对多种压缩算法进行对比,得出了适合三元组地址列表的中文Bigram索引压缩方法。为通过提高过滤算法的过滤效率加快匹配速度,提出一种基于匹配区域特征的过滤算法。该算法将模式串和文本串都分割成固定长度的逻辑块,并从各块中提取了新的匹配区域特征。新算法利用新特征优化了基础过滤准则,提高了算法的过滤效率,并改进了基于分块策略的过滤区确定方案。实验结果表明当误差率较低时,新算法要明显好于改进前算法,在误差率要求较小的相似字符串匹配系统中新算法具有较好的应用前景。
其他文献
<正>电视真人秀,作为现今最受欢迎的电视娱乐形式,已经占据全球电视台大部分的广播时间,并且在所有类型的电视节目当中,真人秀通常是高收视的保证。我国的电视真人秀如果从上
<正>《医学信息》杂志是由国家新闻出版总署批准的,系中华人民共和国科学技术部主管,中华中药学会中医美容分会、中国中西医结合学会、医学美容专业委员会、中华中医药学会中
<正>国家发改委计划废除药价管制的消息自去年下半年始便在业内流传的沸沸扬扬,各地的碎片化文件的陆续出台更被认为是国家纲领性文件成型的前奏。只是相关部门再度上演了"只
<正>自江苏省新高考实行以来,"新材料、新情境"命题模式已经成为地理科命题的主要模式。本文以高考题为例,谈谈对地理情境教学的运用和关于情境命题的思考。一、地理情境命题
预算管理作为一套行之有效的管理系统,在中外企业中都得到了广泛的应用。随着应用的广泛和深入,预算管理也出现了一些亟待解决的问题,预算松弛问题就是预算管理中的一个难题
随着普通高中课程改革全面推进,新课程对高中教师教学提出了更高的要求。受到政治、经济、文化的制约,新课程改革对农村教育带来了巨大的挑战。英语是高中的重点学科,英语课
文章探讨如何提高立法质量问题:健全宪法实施和监督制度是提高立法质量的前提条件;完善立法体制是提高立法质量的重要保障;科学立法、民主立法是提高立法质量的根本途径。这
<正>采用心理控制源量表与焦虑自评量表对164名大学生进行调查。结果发现:(1)不同性别的大学生在时间管理倾向、时间价值感、时间效能感和焦虑上均没有显著差异,但在时间监控
毫米波雷达导引头具有体积小、重量轻、精度高、抗干扰和反隐身能力强等优点,是世界上各主要军事发达国家的重要研究内容之一。本文以实际项目为背景,研究了毫米波雷达导引头
<正>2011年10月18日,发生在西安市未央区第一实验小学的"绿领巾"事件,登上了各大新闻媒体头条。所谓"绿领巾"事件,便是学生按学习、思想品德表现的优劣程度被分为两类,表现好