面向超稀疏数据的矩阵分块耦合因子化研究与应用

来源 :北京工业大学 | 被引量 : 0次 | 上传用户:gmn10021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息化不断深化发展,网络已经成为现代生活必不可或缺的一部分。如何利用网络中海量数据挖掘用户信息,提升用户体验和工作效率,成为学界与工业界的关注热点。但遗憾的是,现有方法大多依赖用户历史行为信息进行分析,而在实际应用中(如信息推荐、协同过滤以及图像恢复等),我们对用户的历史信息知之甚少,即表现为用户信息矩阵极端稀疏,进而造成系统性能劣化甚至不可用。因此如何利用超稀疏用户信息矩阵重构用户信息,成为网络数据挖掘的关键瓶颈。矩阵重构方法为研究者们提供了新的思路,特别是耦合非负矩阵分解方法,因其能够在保持原有矩阵特征的情况下,提升矩阵的稠密度,解决矩阵稀疏的问题,得到了研究者的广泛关注。  随着对耦合非负矩阵分解方法研究的深入,现有算法仍存在以下问题亟待解决:  1.如何提高超稀疏数据利用效率?在用户信息矩阵极端稀疏的情况下,提升数据的利用率是一个很好的解决数据稀疏问题的思路。但考虑矩阵中数据过于稀少,相互关联并不紧密,特别是传统的耦合非负矩阵分解方法还丢弃了部分原有矩阵中的信息。因此在用户信息数据本身已经是极端稀疏的情况,如何充分利用所有原始矩阵信息显得尤为重要。因此需要提出一种方法来对数据特征进行增强,来提升数据重构时的准确性。  2.如何保持数据矩阵分块耦合关系?在用户信息矩阵分解重构时,如何保持不同分块间的耦合关系,对准确重构用户信息矩阵至关重要。但传统的耦合非负矩阵分解方法方法较少考虑此类问题,只是简单的使用了初值关联的方法,难以有效解决分解过程中保持耦合关联关系的难题。  3.如何加入数据间潜在关联关系?实际应用中,如信息推荐、协同过滤以及图像恢复等领域,数据间普遍蕴含关联关系,如何利用这些关联关系构建正则化算子,对用户信息矩阵重构提供强有效约束,提高重构性能。  为了解决上述问题,本文提出了分块耦合因子化(Blolcks-Coupled Non-Negative Matrix Factiorization,B-NMF)算法,该算法的主要贡献是:  1.为了提高超稀疏数据利用效率,我们提出了B-NMF算法,利用螺旋分块方法,在不丢弃任何用户信息数据的基础上,将原始用户信息矩阵按螺旋方式四次分块重构。不仅保持了用户信息矩阵数据的充分利用,同时还提升了矩阵重构的稳定性。  2.为了保持数据矩阵分块耦合关系,我们通过引入分解耦合正则项的方法,加强矩阵分解时不同分块间的耦合关系。同时通过引入特征增强矩阵,利用不同的函数关系对数据进行增强。解决矩阵迭代过程中,保持两分块矩阵之间耦合关联关系特性。  3.为了加入数据间潜在关联关系,我们通过引入同质性假设,即相似的用户应该有相似的表达向量,为用户信息矩阵重构增加同质性系数正则化约束。通过用户信息矩阵中潜在的用户关系,对用户信息矩阵重构提供强有效约束,提高重构性能。  最后,本文通过实验的方法,验证了所提出的B-NMF性能。实验结果表明,对比现有的非负矩阵分解及其扩展方法,B-NMF的算法性能明显优于其他主流方法,且具有更高的稳定性。另外,我们分别在协同过滤和人脸识别两个领域进行了实验,针对超级稀疏的条件下,经过B-NMF算法重构后的性能有了明显的提升,特别是在人脸识别领域的性能已经可以媲美稠密的原始图像。
其他文献
云计算平台采用虚拟化技术实现对资源的封装,并以虚拟机的形式提供给用户使用,虚拟机的安全直接影响用户的数据安全。因此虚拟机的安全问题成为当下亟需解决的问题。可信计算技
通过使用基于XML技术的Web服务,企业能够以前所未有的方式通过抽象和混合将自身的电子商务组件化。Web服务的使用将改变目前的开发模式和应用部署的费用规模。各种Web服务分别
企业应用集成(EAI)正日益成为IT技术的核心,它兼有企业已有应用软件、商业封装式应用软件,以及由通用中间件编写的新代码的功能,提供一种极有竞争力的崭新方案,可以增强客户与供应
该文主要介绍了在Windows环境下电子邮件智能分类的设计模型和实现方法.该分类系统能够对一些典型垃圾邮件进行识别判断,而且也同时能够对其它邮件进行分类.由于如今电子邮件
基于现场的故障诊断系统的体系结构相对封闭,因此,故障诊断与维修都会受到人力、技术和地域的限制,故障诊断的时效性也受到一定的影响。所以,建立远程故障诊断系统已经成为趋势所
解决密钥泄露的直接方法是提高密钥的安全性.秘密共享方案、门限签名方案、Proactive密码体制都是直接加强对密钥的保护来提高密钥的安全性,秘密共享方案使用分布式的存储实
学位
学位
随着电子信息技术迅猛发展,信息存储逐渐成为计算机科学技术研究的重要领域。存储虚拟化系统是指通过将具体的物理存储设备和服务器操作系统相分离,在广域网范围内将零散分布
本文结合了目前问答系统研究领域国际最新研究趋势和作者的实践探索结果,将答案抽取算法分为答案搜索、答案匹配与评分和答案验证三个子模块分别进行了较详细的论述。首先对答