基于GAS计算模型的张量分解算法并行化研究与应用

来源 :河北师范大学 | 被引量 : 1次 | 上传用户:jy860500
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
张量(Tensor)是多维数据最自然的表现形式,是矩阵的多维延伸,张量数据广泛的出现在社交网络、推荐系统等多个领域。对张量数据的分析,一般是通过张量分解的方法,来挖掘原始数据中的隐含信息,通过张量分解可以进行主成分分析、数据压缩、缺失值补全等。目前的张量分解算法,一般是基于单机版MATLAB实现的,是典型的集中式处理方式,当处理大规模张量数据时,数据量的规模超出了单机的内存,使得传统的单机张量分解算法无法满足实际计算需求。分布式处理方法可以将海量数据分散到若干节点中参与运算,节省了计算时间同时也降低了运算成本。图(Graph)是一种基本的数据结构,能够表示实体之间的交互作用和复杂关系,在社会网络等很多领域常用图表示复杂的数据集。本文主要研究了张量数据的图结构表示,并基于GAS并行计算模型在图结构上实现张量分解算法的并行化。本文的创新点与主要工作如下:1)基于GAS计算模型的并行矩阵分解算法矩阵作为二阶张量,广泛的出现社会网络分析和推荐系统中,本文根据矩阵分解基本原理,设计了矩阵分解的图模型,在图结构上基于GAS并行计算模型,实现了并行矩阵分解SGD算法和ALS算法,并在PowerGraph平台上验证了算法的有效性和可扩展性。2)基于GAS计算模型的并行张量分解算法张量数据作为矩阵的高维延伸,存储着原始数据中更多的信息,本文将矩阵分解算法,向高维数据进行延伸,设计张量分解的图模型,基于GAS并行计算模型,实现了并行张量分解CP-ALS算法,并在PowerGraph平台上验证了算法的有效性和可扩展性。3)基于并行张量分解的缺失值补全算法在实际问题中获得的原始数据,并不总是非常完整的,经常存在缺失值,无法直接对原始数据进行分析,需要根据原始数据中的现有值将缺失信息进行补全。本文基于矩阵分解和张量分解算法,设计张量数据的缺失值补全算法,并在图结构上,基于GAS并行计算模型,实现了补全算法的并行化。通过推荐算法经典数据集MovieLens,验证了算法的有效性和可扩展性。
其他文献
自杜威教育思想传入中国至今,其突出的研究地位在中国学者的心中从未改变。杜威大学教育思想是杜威教育思想的重要组成部分,对此进行研究的学者较少。对杜威大学教育思想进行研究,一方面,将有助于其教育理论的丰富,弥补此领域研究的空白。另一方面,在工业化和信息化的背景下,我国大学教育已出现一系列问题,学习和研究杜威大学教育思想,可为我国大学教育的发展提供启示和借鉴。因此,本文从思想基础、思想内容、思想评价三个
重型卡车是汽车工业领域的一个重要分支,其发展水平会对国家的交通运输行业产生重要影响,而悬架系统决定了重型卡车的整车性能。目前国内重卡的悬架结构主要为板簧悬架,但随着卡车技术的发展,以及社会运输需求的多元化,空气悬架已成为重型卡车悬架新的发展方向,并且在可预见的将来会出现大量的应用。因为空气悬架与板簧悬架的结构差异较大,而目前中国卡车企业的整车生产线建立之初都是基于板簧悬架设计的,如何设计一套工艺方
目的:卵巢癌发病率位列女性生殖系统恶性肿瘤前3位,其病死率在妇科肿瘤中居于首位,是女性生殖系统恶性肿瘤患者死亡的主要原因。卵巢癌的筛查主要依靠血清肿瘤标志物检测及影
萘的硝化产物1,5-二硝基萘加氢还原可以得到1,5-二氨基萘,1,5-二氨基萘是精细合成工业中极其重要的中间体,主要被用于制备1,5-萘二异氰酸酯,而1,5-萘二异氰酸酯由于其高熔点,
新民油田是低孔、低渗复杂断块油气藏。新民油田抽油井特征为平均泵挂深(1200m),动液面低(1100m),泵效低(32%)。同时随着油田多年的开发,油井井况变差,综合含水逐年升高,油井
有机电致发光器件(OLEDs)具有驱动电压低、制备工艺简单、成本低等优势,在彩色显示与白光照明领域有极大的潜力。本论文通过在8-羟基喹啉的6-位进行氟代及4-位分别引进CH3、C
电化学加工提高加工精度和改善表面粗糙度的基本原理是,阳极表面的凸凹不平度相对阴阳极极间间隙的不均匀度导致的阳极表面去除量差,因此,加工间隙是电化学加工关键工艺参数
随着市场经济的发展及中国产业升级的需要,石墨烯产业面临着前所未有的机遇和挑战,石墨烯产业必须重视未来战略的定位和调整。在企业的经营战略中,业务组合战略选择是企业经
从国家规定的87种药食兼用和114种可用于保健食品的物品名单中选出可供研究的种子,结果发现在萌发过程中薏苡仁中蛋白质含量呈增长趋势,具研究价值,故选择其作为研究对象;葫
作为一种分布式能源系统,风电场通常处于恶劣的工作环境和特殊的地理位置。由发电机理带来的随机性与波动性是它与传统发电相比最为独特的地方。作为风电机组的重要部件,齿轮箱的故障率较低,但维修过程复杂,故障导致的停机时间和维护费用在各类故障中最高。因而针对风电机组齿轮箱选择良好的状态监测方法尤为重要。本文基于齿轮箱轴承温度,采用横向对比与纵向建模的方法来实现风电机组状态监测。文中以数据分布检验方法找出机组