Urdu语言文本字符串匹配串行与并行处理

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:michael2000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
字符串匹配问题是计算机科学中十分重要且应用广泛。在我的国家巴基斯坦,使用的母语是Urdu语言。Urdu语言文本与英语语言文本完全不一样。Urdu语言文本具有自己的(己已_qI)特征。Urdu语言文本字符之间是关联的。Urdu语言文本字符采用utf-8编码,utf-8编码是变长编码方法。如果采用ASCII编码方法设计实现Urdu语言文本字符串匹配算法,那么将得不到正确的匹配位置。据我们所知,以前没有针对Urdu文本的字符串匹配算法研究的文献报道。为此,面向Urdu语言文本,研究实现有效的Urdu字符串匹配串行和并行处理具有现实意义。  本文首先分析研究Urdu语言文本的特性及其字符编码表示方法,融合采用wchar t类型和unicode编码方式以有效表示Urdu语言文本字符编码,进而研究实现针对Urdu语言文本字符串匹配的BM,KMP,BF和Sunday串行算法,并通过大量Urdu语言文本正文串和模式串的实验评估测试串行匹配算法的运行性能。实验结果比较表明,对于不同规模(长度)的Urdu语言文本正文串和模式串,总体上,针对Urdu语言文本开发实现的串行BM串匹配处理算法在4个算法中是最快速的,第二快速的是串行Sunday串匹配处理算法;此外,随着Urdu语言文本正文串的增大,KMP和BF串行匹配算法所需的运行时间增加很快,而BM和Sunday串行匹配算法所需的运行时间增加缓慢并且运行性能稳定。与KMP、Sunday和BF串匹配算法相比,采用自右至左扫描模式和正文字符的BM串匹配算法更适用于Urdu语言文本结构的大规模字符串匹配处理。  基于分组原理、多核并行计算、Pthread多线程程序设计方法,采取重叠部分正文字符策略,通过将长度n的Urdu语言正文串txt[0..n-1]划分为numthreads个正文子串txt[(i*n/num_threads..(i+1)n/num_threads+m-1]的方法,其中m为Urdu语言模式串长度,i=0~num threads-1,num threads为并行线程数,本文进一步研究实现多核计算平台上的面向Urdu语言文本的BM、KMP、BF和Sunday字符串匹配并行化算法。对于不同规模的Urdu语言文本字符串,在多核计算机上运行不同数目的并行线程的实验结果比较表明:运行的并行线程数量对于并行化串匹配算法所需的匹配时间具有明显的影响;并行BM和Sunday串匹配算法所需的运行时间远远少于并行KMP和BF串匹配算法所需的运行时间;总体来说,并行BM串匹配算法在4个并行串匹配算法中是最快速的,第二快速的是并行Sunday串匹配算法,并行BM和Sunday串匹配算法运行10个线程或者8个并行线程时,其完成Urdu语言文本字符串匹配所需时间最少;并行多线程BM和Sunday算法分别获得最高和次最高加速比。与其他3个并行化串匹配算法相比,BM多线程并行化算法更适用于Urdu语言文本结构的大规模字符串匹配并行处理。
其他文献
随着智能移动终端市场的蓬勃发展,由谷歌推出的Android智能移动终端平台也开始崭露头角。在开放手持设备联盟(OHA,Open Handset Alliance)的推动下,Android系统以其开源的特性越
随着互联网的飞速发展和Web日志数据爆炸式增长,海量日志数据处理越来越受到人们的关注。Web日志是网站服务器产生的,随着日志数据的增长,就形成了海量日志。对这些海量日志数据
对不同语种的语音进行对比分析是语音信息处理的一个重要研究方向,目前我国少数民族语音信息处理和不同语种之间的语音对比研究水平亟待提高,因此使用计算机技术自动处理少数民
数字信息的爆炸增长,对整个存储系统的容量、性能、可靠性提出了新的要求。如何对现有的系统进行优化,提供一个大容量、高可靠性、高性能的存储系统,是一个亟待解决的课题。
常识推理中的一些信息具有不一致性、小完全性与不确定性。这样的信息,不能称为真理,只能称为信念。信念修正是一种研究常识推理的重要方法。该方法的主要思想是首先根据一定
无线传感器网络(Wireless Sensor Networks,WSNs)具有广泛的应用场景,如应用于军事国防、生物医疗、环境检测以及智能家居等领域。无线传感器网络就是由部署在监测区域内大量
随着计算机技术和监控技术的发展,视频监控系统也在不断加快智能化的步伐。智能视频监控所涉及的各项技术都对其智能化起着至关重要的作用。其中,运动目标分类技术扮演者承前
随着高速铁路和虚拟仿真技术的发展,使虚拟仿真技术在高速铁路上的运用成为可能。它把高速铁路的设计和建设在计算机环境中用虚拟仿真技术模拟出来,不仅能在设计时看到实际的
海量遥感影像数据存储基本上采用的都是分布式存储方式。特别是在高分辨率数据存储系统中,为了保证数据的安全性、完备性和高可用性,需要提供一定的数据冗余技术。目前,传统的分
随着卫星导航系统的不断发展,其在军民两个领域都发挥了极其重要的作用,并成为维护国家利益、推动经济发展的重要力量。继美国的GPS系统之后,各国从本国的国家利益出发,也相继开