基于多核VLIW DSP的数字信号变换函数并行优化

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:wjs9988
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着音视频娱乐行业的迅速进步,数字信号处理器正逐渐成为研究人员重点关注的对象,如何提高数字信号处理器平台上相关应用的性能和效率也受到越来越多的重视。然而,当前流行的多核、超标量、单指令流多数据流(Single Instruction,Multiple Data,SIMD)、乱序执行、超长指令字(Very Long Instruction Word, VLIW)技术使得数字信号处理器的体系结构越来越复杂,普通用户很难编写出能够充分发挥处理器性能的软件。针对特定数字信号处理器平台进行函数库改进是软件优化领域当前重点关注的问题之一,其关键在于提升代码对处理器、存储器等硬件的使用效率。本文针对上述问题,基于国产BWDSP100进行深入研究,针对其搭载的基本信号处理函数库实施并行优化。考虑到该函数库结构复杂、例程数量较多,本文采用重点研究典型函数的方式,对其中最为重要的数字信号变换函数进行优化,使用到的主要优化方案有如下三个层次:(1)利用BWDSP100汇编指令集提供的特殊指令改编函数库中部分函数的实现,从而达到减少代码量,提升程序执行效率的目的。BWDSP100提供的特殊指令包括累加、累减、复数、选大、选小、定点、超算,其中超算指令包括正余弦、倒数、自然对数等。(2)针对数字信号处理函数循环计算多的特点,通过循环展开技术对函数内的循环操作进行重点优化。循环展开能够成倍的提升每一轮迭代时参与运算的数据个数,这样做的效果是有效的降低了循环体执行的总次数。该技术可以提高软件效率的原因有二:一方面它提高了单次迭代内部有效计算(非索引比较)的数目;另一方面它拉长了程序代码,基于此可以进一步变换代码以便进行指令调度、对变量进行重命名以减少数据相关。(3)依据BWDSP100支持指令多发射的特点,通过指令调度技术对指令次序进行调整,这样不仅可以减少流水线的空转和等待时间,同时可以提高循环展开的展开数。实验结果表明,经过优化之后,本文中所有函数的加速均超过9,其中80%的函数加速比超过10。本文的工作成果对其它软件的优化工作有借鉴意义。
其他文献
清醒,即清楚明白;清廉指清白廉洁。清醒才能清廉,清廉必须清醒。这是某省一位市长不为金钱所惑的体会和经验,实在值得为官者学习和借鉴。 Awake, that is clearly understoo
Considering the important role that motivation plays in the process of second language leing, which can influence stu?dentsbehaviours and performance in langu
抗日战争时期,驰骋冀鲁边区的渤海回民支队,与回族英雄马本斋领导的冀中回民支队遥相呼应,紧密配合,高奏了一曲抗击日寇、保家卫国的爱国主义英雄赞歌。 During the period
古建筑物的虚拟复原在保护和研究古代建筑文化遗产领域中,已经越来越被人们重视。在各项虚拟复原相关技术中,利用基于图像的建模与绘制(IBMR)技术建立具有真实感的虚拟环境是
遗传算法作为一种成熟的现代算法,由于具有高效、高可靠性、信息量大和易于实现等优点,而在工程设计领域得到了广泛应用和认可。本论文研究遗传算法在带式输送机滚筒优化设计
云计算技术不断发展和革新使得数量庞大的用户选择将数据存储到云端。但是,用户将隐私信息存储在云端后会引发用户对存储云端隐私数据安全的担忧。用户通过将数据加密后存储
KJZ55型矿用压入式局部通风机是煤炭科学研究总院抚顺分院研制的新型局部通风机,主要用于煤矿采面及掘进工作面通风,尤其适用于高瓦斯(瓦斯绝对涌出量5m3/min)、长距离(通风
摘要抽取是应对现代信息化社会而产生的一种信息提炼技术,它从大篇幅的文本中快速、准确地抽取出能够表达文本主题意思的句子生成文摘,为人们高效获取有用信息提供帮助。本文
按广东省矿业秩序整顿规划,第一批实现矿业秩序全面好转的深圳、珠海、汕头、东莞、中山等5个市,已经由省政府检查验收合格。按规划要求,1999年6月底以前,省政府将对 Accord
关键帧动画是利用计算机的运算能力,按照运动学和动力学的规律计算生成两个关键动作之间的运动动作序列的动画方法。这种方法可以依靠几个简单的动作关键帧生成相对复杂的运