结构张量构建与分解方法及其在多元关联分析中的应用

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:shtour
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着物联网及社交网络近几年的迅速发展,相关数据迅速爆炸式增长,困扰人们的问题往往不是数据不足,而是信息过载。张量和知识图谱可以有效地组织不规则的异构数据,如何从它们的结构特征出发,挖掘出数据的隐关联特征,在多元关联分析领域具有很重要的价值。然而,实际数据中存在的非直接关系和非对称关系使得部分实体间的关系难以得到准确的预测,如何分析这些关系成为亟待解决的问题。大多数现有的关系分析预测模型主要针对直接关系与对称关系的预测,缺乏对非直接关系与非对称关系预测的优秀解决方案,部分模型依靠深度神经网络具有对局部非直接关系预测的能力,但算法时间复杂度较高且不具备较好的可解释性。针对数据中的非直接关系,本文提出了ARCCS(Association Rule algorithm Combined with Classical Statistics)模型,该模型将张量看作矩阵的高维表达形式,使用改进的FGMDGCD(Fast Greedy Multi-Dimensional Graph Community Detection)算法来进行低维度内单矩阵的关系聚类分析,使用改进的Apriori算法进行高维度的多矩阵关联分析,使用经典统计检验算法来对结果进行假设检验。针对数据中的非对称关系,本文提出了CPE(CP decomposition and Embedding method)模型,该模型使用张量分解和词嵌入表示以完成知识图谱中关系的预测任务,得益于模型为非对称关系的两个实体赋予不同权重,CPE模型尤其适合捕捉知识图谱中非对称关系的特点。最后,本文综合以上两种模型提出了MAAH(Multiple Association Analysis Hybrid recommendation system,MAAH)模型,该模型综合了两种模型的优点,深入挖掘了电影推荐系统中电影和用户之间的非直接关系与非对称关系。本文提出的三种模型对多元关联数据中存在的非直接关系与非对称关系都做出了很好的预测与分析,在相关数据集上的结果表明,ARCCS模型相比早先较优秀的模型有2.98%的提升,与其他的最新线性模型相比,CPE模型具有高达10%的改进,MAAH推荐模型相比早先表现较好的模型具有10%左右的提升。
其他文献
分布式机器学习当前已成为人工智能最热门的研究领域之一,随着大数据的逐渐兴起,数据开始发生爆炸式的增长,传统的机器学习在单机上进行庞大的数据存储和计算相对困难,因此,将模型部署到多台机器上进行分布式计算是一种必要的解决方法。针对上述问题,基于Hadoop的深度学习分布式训练平台支持Tensor Flow、Py Torch等深度学习框架进行分布式训练,支持工作流的图形化配置、部署与管理,以及多种算法的
学位
如今,桥梁在交通运输中的重要性日益提高,不仅带来生活的便利,而且促进经济的发展。然而,桥梁在建设运营期内仍然存在一些危险,因此对于桥梁的各类信息监测显得格外重要。目前大多监测还是人工定时巡检为主,这种方法不仅效率低,也不能进行实时监控。针对这一问题,本文提出了自动化监测来维护桥梁的健康,采用各类自动化监测传感器,对现场数据实时采集并远程传输到某云服务中心,所有的关于桥梁的数据集中到云端,进行专业的
学位
随着人类社会的发展,在世界范围内,能源匮乏的问题也渐渐显现,近年来,人们越来越关注节能环保问题。而建筑的耗能是现代能源消耗中的重要组成部分,如何更加高效的管理现代建筑的能源分配以及能源结构成为目前亟待解决的问题。因此针对目前国内建筑能源供应基于人为经验无法高效的利用能源的困境,提出了一个基于物联网数据的某大厦能源管理系统。通过对某大厦的能源相关设备的关系建模和管理,再应用实现的能源预测算法和能源需
学位
对于快递行业而言,考核是保证质量和成本的关键。无论是质量还是成本,都需要通过考核来进行控制。同时快递行业的业务繁杂,一个快递包裹需要经历的阶段就包括揽收、揽收中心进港、揽收中心出港、转运中心进港,转运中心出港、回货、交货、派签等,业务多而杂。在信息化的时代,哪怕是快递这种接近互联网的行业,仍存在着使用人工或较为传统的方式进行考核的现象。面对如此繁多的业务及如此巨大的数据量,显然传统的考核方式已经无
学位
随着软件工程的发展与应用,人们生活中越来越离不开软件的帮助,软件系统也日益庞大,为了维持软件的稳定性和软件服务的质量,在软件的开发和维护的过程中不得不得花费大量的人力在软件测试上,但是人工测试有着很高的成本。此外,软件测试有很大的重复性简单工作,这些工作一方面会消耗软件工程师宝贵的精力,同时也给企业带来了巨大的成本负担。随着大数据相关技术的发展,测试数据也能挖掘和分析出更有价值的信息,但是仅凭人工
学位
随着社会经济发展与高校扩招政策的推行,高校毕业生人数逐年上升,就业竞争压力日趋加大,毕业生心理压力也随之加重,人工疏导无法满足庞大的需求,需要一种更高效便捷的方式来处理,由此聊天机器人应运而生。在自然语言处理中,基于检索技术的聊天机器人无法应对没有预先定义的场景,灵活性较差,而基于深度学习的生成式聊天机器人扩展性更强,系统开发效率也更高,有着非常广阔的发展前景。论文对高校毕业生就业心理压力产生的问
学位
随着社会的发展,短视频逐渐成为人们生活中不可或缺的一部分甚至已经发展到全民创作的阶段,导致视频数量与日俱增,造成用户对视频难以选择的问题。对此视频平台利用推荐算法为用户选择特定的视频。在推荐算法中,召回阶段主要是负责对海量的数据进行粗排,得到了一定数量级的视频候选集,这也就直接对最终的视频推荐列表产生了决定性的影响。在此背景下,本文使用后验特征在召回阶段之后设计一个重排序流程,来提升召回阶段的排序
学位
随着“一带一路”国际合作倡议提出,铁路作为陆上丝绸之路经济带建设的主要载体,为周边国家带来极大利益。同样,伴随着绿色出行理念的提出,公共交通已成为大众出行的主要选择,其中铁路交通因为具有高速长途运输的特点,更成为共同交通中的首选。但是,铁路环境又存在很多不容忽视的问题,如铁轨缺损、变形致使工作面间距发生改变,会对铁路交通安全造成很大程度的安全威胁。而现有的轨距检测方式存在在检测过程中对钢轨表面造成
学位
当今时代随着经济的迅速发展,消费者拥有着各种各样的权益。无论是对经营者还是消费者而言保证权益不受到损害都是十分重要的,对于互联网企业而言,其提供给消费者的权益常以虚拟货物的方式体现,这些虚拟货物的发放都是通过软件工程师构建的系统平台实现的。为保证业务的正常实施,用户的良好体验,虚拟货物的正常发放,对业务权益平台的安全性、稳定性、健壮性、可拓展性和平台的高性能提出了一系列的要求。针对上述情况,论文设
学位
随着信息社会一起到来的数据大爆炸时代,催生着大数据行业的飞速发展,在这个过程中,涌现出一大批数据开发、数据分析等和数据打交道的从业人员,他们需要从海量的数据中提取出有用的信息,并结合数学、计算机、数据挖掘等领域的相关知识对数据进行提炼总结然后建立数学模型,最后生成一份成品的分析报告,这就要求需要一个系统来对数据需求的整个生命周期进行管理,提供需求不同状态的流程控制,提高相关从业人员的开发效率,并且
学位