64位双精度矩阵分解的优化和硬件实现

来源 :合肥工业大学学报（自然科学版） | 被引量 : 0次 | 上传用户：IamluyundongPPA

【摘要】

：

矩阵分解是线性代数中最重要的运算之一,广泛应用于现代通讯和控制.文章提出一种针对浮点矩阵的GR-QR(Givens rotation QR)分解一维线性结构,利用GR-QR分解运算过程中的并行特点,提高运算资源利用率,实现任意阶浮点矩阵分解,并设计实现了基于此结构的矩阵分解电路,该电路支持2-32阶双精度浮点矩阵的直接分解.在TSMC28 nm工艺,QR分解器的工作主频为700 MHz,面积为2mm2,计算精度达到10-15,性能是1.6 GHz RTX2070的95倍.

【作者】

：

邱俊豪宋宇鲲陈文杰侯宁

【机构】

：

合肥工业大学微电子设计研究所,安徽合肥 230601;合肥工业大学教育部 IC 设计网上合作研究中心,安徽合肥 230601;河南城建学院电气与控制工程学院,河南平顶山 467000

【出处】

：

合肥工业大学学报（自然科学版）

【发表日期】

：

2021年12期

【关键词】

：

QR分解 Givens旋转 ASIC实现硬件加速一维线性结构

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

其他文献

激光淬火的原理与应用

介绍了采用激光这种新型热源,在材料的表面做热处理(淬火),依靠激光的稳定性和可控性,使得表面处理更加精细化,也更容易满足对表面的复杂要求.阐述了激光淬火的原理、实验情况及一些展望.

期刊

表面处理淬火激光耐磨导轨筋

干煤粉气化工艺煤粉输送载气的选择

神宁炉干煤粉气化分别采用N2和CO2作为载气输送煤粉,所产合成气用于生产合成氨或甲醇,比较了输送载气对煤气化装置设备配置和性能指标的影响,以及两种输送载气下合成氨或甲醇的生产成本.结果显示,当气化炉碳转化率相同时,合成氨厂采用N2输煤比采用CO2输煤的成本低;当生产甲醇时,采用CO2输煤可以降低合成气中的惰性组分,比采用N2输煤的成本更低.

期刊

干煤粉气化合成氨甲醇输送载气CO2N2

超流氦系统中2～4K负压换热器换热性能的数值模拟

文章针对超流氦低温系统中层叠翅片式的汉普逊型负压换热器建立三维模型,采用数值方法对负压换热器的温度场、压力场和流场进行模拟仿真,并与同类型负压换热器的实验数据进行对比,分析了仿真和实验测量的液氦出口温度偏差及氦气压降偏差.研究结果表明:在0.003～0.007 kg/s范围内增加质量流量,压降增大,换热效率降低;在小质量流量范围内,层叠翅片式负压换热器的压降、换热性能都优于翅片管式负压换热器;随着质量流量增大,层叠翅片式负压换热器的压降明显小于翅片管式负压换热器,但翅片管式负压换热器的换热效率更高.

期刊

负压换热器压降翅片传热流场

任意形状管道内噪声源识别的等效源法研究

管道内的声场不仅包含噪声源直接辐射的声波,还包含管道边界反射所产生的声波,此时采用传统的自由场等效源法无法准确识别噪声源,而现有的管道内等效源法由于受限于圆形管道,无法得到广泛应用.文章提出了可用于任意形状管道内噪声源识别的等效源法,该方法通过匹配管道壁面刚性边界条件,构建出任意形状管道内的Green函数,利用该Green函数构建真实声源等效源源强与测量声压之间的传递关系,然后通过测量近场声压反求出该等效源的源强,进而用于定位管道内的噪声源和量化噪声源辐射声场.数值仿真和实验验证了该文所提方法的有效性.

期刊

等效源法声源识别任意形状管道边界反射

汽车动力总成全套悬置系统台架耐久模拟试验研究

文章首次提出一种可以同时验证汽车全套动力总成悬置系统的台架耐久模拟试验方法.在完成台架设计原理及机械结构设计的基础上,制定全套悬置系统主要载荷的5种迭代方案;研究了试验关键性问题的处理,如悬置系统道路载荷谱采集、台架通道设置、载荷谱编辑以及输入输出信号之间关系的建立等;给出试验载荷谱迭代计算的步骤,并得到最佳的试验迭代方案.试验实例验证了该文提出的方法不仅能提升台架模拟精度,还能有效地同步完成整车全套悬置系统的耐久验证.

期刊

动力总成全套悬置系统多载荷谱迭代台架模拟试验耐久性能

大胜关长江大桥轨道交通接触网避雷器选型及配置研究

针对南京大胜关长江大桥轨道交通接触网雷击问题,文章提出在支柱绝缘子上并联安装带串联间隙金属氧化物避雷器的方案,从结构型式选择、电阻片参数、串联间隙距离和避雷器本体参数4个方面进行避雷器选型,并分析逐基支柱安装避雷器和隔基支柱安装避雷器2种配置方式的雷电防护效果.仿真分析给出接触网用避雷器参数,并且建议接触网避雷器配置方式采用逐基支柱安装避雷器的方案.

期刊

避雷器选型避雷器配置接触网雷电防护

基于特征上下文编码的实时语义分割网络

针对语义分割网络参数量过大导致分割速度慢的问题,文章设计了一种基于特征上下文编码的实时语义分割网络FCENet.FCENet首先利用卷积因式分解和通道混洗方法设计一种双分支的非对称瓶颈块,进行下采样过程中图像的空间特征信息编码,有效减少网络参数,提升网络的推理速度;然后将下采样得到的编码信息作为输入特征映射进行后处理,采用不同的卷积操作获取不同层级的特征上下文,通过引入通道注意力机制联结不同层级信息拓展网络的学习能力,提升网络的分割精度.在CityScapes数据集上的实验结果验证了FCENet不仅保持了

期刊

实时语义分割编码网络推理速度分割精度特征上下文注意力机制

自驱动关节臂坐标测量机结构参数标定

与关节臂坐标测量机一样,自驱动关节臂坐标测量机存在诸多结构参数误差影响其测量精度.为了提高自驱动关节臂坐标测量机的测量精度,文章建立以激光跟踪仪测量距离为基准的标定系统,并对该系统的标定算法进行研究.根据Denavit-Hartenberg(D-H)模型,建立自驱动关节臂坐标测量机运动学模型;用激光跟踪仪标定自驱动关节臂坐标测量机测量距离的误差,建立距离误差模型,设计基于最小二乘迭代Leven-berg-Marquardt(LM)的标定算法.实验结果表明,经LM算法标定且对自驱动关节臂坐标测量机的结构参数

期刊

自驱动关节臂坐标测量机运动学模型结构参数标定算法

基于BN-SGMM-HMM模型的低资源语音识别系统

针对语音识别系统在低资源条件下,采用传统的高斯混合-隐马尔可夫声学模型(GMM-HMM)会带来识别精度低、参数规模过大等问题,文章提出基于BN-SGMM-HMM的声学模型来解决GMM-HMM模型的不足.该模型在声学特征方面,通过基于瓶颈(bottleneck,BN)层的神经网络来进行提取,从而提高声学特征的可区分性与鲁棒性,同时在训练过程中引入Dropout策略来防止过拟合问题;在声学模型方面,采用子空间高斯混合模型(subspace Gaussian mixture model,SGMM),使得模型参数

期刊

语音识别瓶颈特征子空间高斯混合模型(SGMM)Dropout策略低资源

面向Kinect骨骼运动数据优化的堆叠双向循环自编码器

深度相机Kinect获取的人体骨骼运动数据含有大量噪声并且骨骼节点较少,数据细节层次较低.针对该问题,文章提出一种用于优化Kinect骨骼运动数据的网络,该网络由6个双向循环自编码器堆叠构成,通过堆叠结构提高数据的平滑自然性,并在训练阶段利用隐变量约束确保骨骼运动数据细节层次提高后仍具有合理的骨骼结构.在运行阶段,采用滑窗处理方式获得长序列的优化结果.实验结果表明,该网络得到的优化后数据具有更好的平滑性并能保持更为合理的骨骼结构,能够达到用低精度Kinect设备获取高精度动捕数据的目标.

期刊

深度相机Kinect数据优化堆叠自编码器隐变量约束滑窗

64位双精度矩阵分解的优化和硬件实现

与本文相关的学术论文