论文部分内容阅读
社交媒体的兴起,不仅降低了人们沟通的成本,而且改变了人们消费信息的习惯。人们不再满足于被动的消费信息,转而成为制造和传播信息的主体。全民自媒体时代催生出更为严峻的“信息过载”难题。一方面,微博媒体的短文本语言范式,如长度限制,特殊字符广泛使用,表达口语化等特性,使得传统长文本检索方法在微博检索中性能劣化,甚至完全不可用。另一方面,主流社交媒体平台,如微博、Twetter和Facebook等,迫切希望构建快速、智能的微博信息过滤系统,为用户提供更加有效的信息推送服务。这就要求我们对适用于微博短文本检索的方法进行深入研究。现有的诸多改进短文本检索性能的方法中,通过查询扩展提升微博检索性能的方法,因其简单易行且性能优异,得到了研究者的广泛关注。但随着对查询扩展的方法研究的深入,发现现有算法仍存在以下问题亟待解决:(1)用户查询意图理解困境。通常用户显式查询只是用户信息需求的简单抽象,从中很难推断用户的实际搜索意图。(2)多源信息扩展风险管理。通常引入多源信息进行查询扩展被证明能有效提升检索性能,但是如何使用多源数据以及如何管理扩展风险仍然有待研究。为了解决上述问题,本文提出了一种用户过滤意图推理方法,通过组合内、外部多源信息,同时引入风险最小化迭代模型实现最佳查询扩展,达到拉近原始查询和用户实际搜索意图的距离的目的。该算法的主要贡献总结如下:(1)为了应对用户查询意图理解困境,我们综合利用检索文档集中的内部知识和多源外部反馈知识扩展用户原始查询,为了管理扩展过程中伴随引入多源外部扩展信息带来的扩展风险,本文基于非负矩阵分解(non-negative matrix factorization,NMF)方法,提出了一种结合内部-外部知识的查询扩展(Internal and External Knowledge Expansion,IEKE)方法,通过构建正则化约束算子,实现查询扩展风险最小化,达到拉近原始查询和用户实际搜索意图距离的目的。(2)此外,面对数据的爆发式增长,如何快速处理海量数据是现在研究热点。我们探讨了利用CUDA、Spark等并行化技术,利用分布式数据计算平台实现IEKE内部-外部知识的查询扩展方法快速迭代计算。在TREC(Text REtrieval Conference)提供的Microblog语料库上的实验对比表明,基于内部-外部知识协同扩展的微博检索优化方法,能够极大提升微博检索性能。同时算法的并行化实验也表明,在略微牺牲计算性能的基础上,CUDA平台并行化具有非常大的速度优势,但是由于显卡内存的限制,在特大数据集上Spark平台并行化提供了在廉价硬件上计算的可能。