论文部分内容阅读
随着信息化不断深化发展,网络已经成为现代生活必不可或缺的一部分。如何利用网络中海量数据挖掘用户信息,提升用户体验和工作效率,成为学界与工业界的关注热点。但遗憾的是,现有方法大多依赖用户历史行为信息进行分析,而在实际应用中(如信息推荐、协同过滤以及图像恢复等),我们对用户的历史信息知之甚少,即表现为用户信息矩阵极端稀疏,进而造成系统性能劣化甚至不可用。因此如何利用超稀疏用户信息矩阵重构用户信息,成为网络数据挖掘的关键瓶颈。矩阵重构方法为研究者们提供了新的思路,特别是耦合非负矩阵分解方法,因其能够在保持原有矩阵特征的情况下,提升矩阵的稠密度,解决矩阵稀疏的问题,得到了研究者的广泛关注。 随着对耦合非负矩阵分解方法研究的深入,现有算法仍存在以下问题亟待解决: 1.如何提高超稀疏数据利用效率?在用户信息矩阵极端稀疏的情况下,提升数据的利用率是一个很好的解决数据稀疏问题的思路。但考虑矩阵中数据过于稀少,相互关联并不紧密,特别是传统的耦合非负矩阵分解方法还丢弃了部分原有矩阵中的信息。因此在用户信息数据本身已经是极端稀疏的情况,如何充分利用所有原始矩阵信息显得尤为重要。因此需要提出一种方法来对数据特征进行增强,来提升数据重构时的准确性。 2.如何保持数据矩阵分块耦合关系?在用户信息矩阵分解重构时,如何保持不同分块间的耦合关系,对准确重构用户信息矩阵至关重要。但传统的耦合非负矩阵分解方法方法较少考虑此类问题,只是简单的使用了初值关联的方法,难以有效解决分解过程中保持耦合关联关系的难题。 3.如何加入数据间潜在关联关系?实际应用中,如信息推荐、协同过滤以及图像恢复等领域,数据间普遍蕴含关联关系,如何利用这些关联关系构建正则化算子,对用户信息矩阵重构提供强有效约束,提高重构性能。 为了解决上述问题,本文提出了分块耦合因子化(Blolcks-Coupled Non-Negative Matrix Factiorization,B-NMF)算法,该算法的主要贡献是: 1.为了提高超稀疏数据利用效率,我们提出了B-NMF算法,利用螺旋分块方法,在不丢弃任何用户信息数据的基础上,将原始用户信息矩阵按螺旋方式四次分块重构。不仅保持了用户信息矩阵数据的充分利用,同时还提升了矩阵重构的稳定性。 2.为了保持数据矩阵分块耦合关系,我们通过引入分解耦合正则项的方法,加强矩阵分解时不同分块间的耦合关系。同时通过引入特征增强矩阵,利用不同的函数关系对数据进行增强。解决矩阵迭代过程中,保持两分块矩阵之间耦合关联关系特性。 3.为了加入数据间潜在关联关系,我们通过引入同质性假设,即相似的用户应该有相似的表达向量,为用户信息矩阵重构增加同质性系数正则化约束。通过用户信息矩阵中潜在的用户关系,对用户信息矩阵重构提供强有效约束,提高重构性能。 最后,本文通过实验的方法,验证了所提出的B-NMF性能。实验结果表明,对比现有的非负矩阵分解及其扩展方法,B-NMF的算法性能明显优于其他主流方法,且具有更高的稳定性。另外,我们分别在协同过滤和人脸识别两个领域进行了实验,针对超级稀疏的条件下,经过B-NMF算法重构后的性能有了明显的提升,特别是在人脸识别领域的性能已经可以媲美稠密的原始图像。