【摘 要】
:
飞腾FT-M6678(以下简称M6678)DSP是一款完全自主知识产权的多核高性能DSP。M6678采用了将指令和数据分开存储的哈佛体系结构和新型的Key Stone多核架构。图像模板匹配算法在
论文部分内容阅读
飞腾FT-M6678(以下简称M6678)DSP是一款完全自主知识产权的多核高性能DSP。M6678采用了将指令和数据分开存储的哈佛体系结构和新型的Key Stone多核架构。图像模板匹配算法在计算机视觉、目标检测与跟踪、视频压缩以及视频监控等领域发挥着重要作用。快速稳定的模板匹配算法的实现与优化一直是图像处理领域的研究热点。基于相关性系数的模板匹配是图像匹配领域中最重要的算法之一,其特点是访存/计算密集,面向具体目标体系结构的性能优化空间较大。目前,包含相关性模板匹配在内的多种经典图像处理算法并没有面向M6678DSP体系结构的高效实现。为推动国产DSP芯片在图像处理领域以及人工智能领域的应用,本文将基于相关性系数的模板匹配算法实现到M6678平台,结合算法特征与目标平台的体系结构特征,进行并行性及局部性等方面的性能优化。测试结果表明优化过后的程序性能提升明显,能够更加充分地利用M6678特有的计算资源,对于其他图像处理算法在该平台的实现和优化具有借鉴意义。本文针对相关性模板匹配算法在飞腾DSP平台实现与优化主要做了以下几个方面的工作:1、分析了模板匹配算法及其复杂度,以及M6678的底层开发环境的支持情况,完成了相关性模板匹配算法在M6678平台上的移植与实现。2、开展了面向M6678的数据级并行及指令级并行的优化研究。使用分支消除与分支外提等方法消除冗余的控制流,避免阻碍SIMD向量化的发掘,并使用编译环境提供的向量内联指令对核心运算代码进行手工向量化改写;使用循环展开,语句重排等方法提高指令级并行性,以充分利用M6678计算内核的多功能部件,多指令发射等硬件特性。3、在模板匹配算法的实现过程中提出了一种图像分块优化方法。通过将待匹配图像进行分块匹配,减少了冗余计算,减少高速缓存压力并提高了数据局部性和cache命中率。使用面向提升数据局部性的多种循环变换方法以及数据预取优化,提升程序访存效率,隐藏访存时延。本文对优化前后的程序进行了性能测试,测试结果表明,向量化及局部性优化带来的性能提升最为明显,达到了1.98倍的性能提升。经过其他优化后,整体加速比达到了2.01倍。此外,本文对比了该程序在TI-C6678以及FT-M6678两个不同平台上的性能差异,结果表明在进行面向FT-M6678体系结构特征的优化后,该程序在FT-M6678平台上的运行性能优于TI-C6678平台,验证了本文移植及优化工作的有效性。
其他文献
“中国制造2025”战略提高了对国家制造业自主创新能力的要求,也加速了汽车生产加工等制造工业的产业升级。曲轴瓦盖是汽车发动机的关键零件之一。瓦盖和缸体的精密结合是曲
作为微尺度器件中重要的能量来源,亚稳态分子间复合物(MIC)一直以来是含能材料领域中研究的热点。它具有高燃烧速度、高能量密度和微米级临界直径等优异性能。MIC的反应速度取决于点火燃烧阶段气相产物的量,没有气相物质生成则无法提高反应速度,更不能触发燃烧反应,因此具有较低熔沸点同时和Al反应能生成高质量释放热的金属氧化物成为制备性能优异MIC的首选项。MoO_3在众多氧化物中兼具熔点低和与Al反应质量
随着大规模城市化建设的进行,高层建筑结构迈入新的发展时期,其承载结构所在的深基坑的开挖研究也显得尤为重要。深基坑在开挖过程中的应力调整及变形规律,众多的学者已经做
定位技术的地位举足轻重,是诸多新技术的基础。基于GPS的室外定位技术虽然已相当成熟,可是由于其自身的特性,使得其并不能直接应用于室内环境。现有的室内定位技术,或者其成
当前组织国际集装箱运输领域向数字经济的过渡已进入活跃阶段。考虑到目前在国际旅游(booking.com;agoda.com 等),客运(scyscanner.com)和汽车(uber.com)运输领域已经有了相
工业化和城市化进程的加快不断促使城市人口、规模和功能的扩大,城市逐步成为推动经济可持续增长和保证社会安定的重要载体,在经济发展和社会进步中发挥着核心作用。与此同时
本文采用以理论分析、力学分析、数值模拟计算和现场应用为主的研究方法,以赵各庄矿十四水平首采工作面为研究背景,对深部不等宽煤柱工作面冲击地压机理、不等宽煤柱冲击显现特征、基于软弱结构的冲击地压防控机理和防控技术进行了研究。通过分析4137西上工作面不等宽煤柱的力学特征及采空侧压对工作面的动静态影响,建立了该工作面的冲击地压力学模型,揭示了深部不等宽煤柱条件下的冲击地压机理。在煤层和顶底板三硬大结构中
竞技射击运动是河南省竞技体育重点布局的支柱项目。自1956年在河南省开展以来,在各类赛事上取得了优异成绩,为国家射击队输送了大量优秀人才,为河南省竞技体育的发展做出了
近些年,随着国民经济持续性的飞速发展,电能的需求量与之成正相关增长,国家特为此制订了“西电东送”以及“坚强电网”的发展策略,直流输配电因其线路损耗较低、输送电能容量大等特有优势而被大力发展。绝缘子是直流输电线路中不可或缺的构成器件,然其老化问题日益凸显。根据相关的数据统计显示,每年直流输电线路中绝缘子的老化率较之交流输电线路要高出一至两个数量级,非常不利于电力系统安全稳定地运作,故对直流绝缘子老化
认知无线电(Cognitive Radio,CR)凭借认知功能和可配置功能,成为下一代无线通信发展的关键技术之一。该技术能够使无线通信设备根据无线环境动态调整工作参数,以高效、灵活的