基于内部—外部知识协同扩展的微博检索优化研究

来源 :北京工业大学 | 被引量 : 0次 | 上传用户：gsjsk

【摘要】

：

社交媒体的兴起,不仅降低了人们沟通的成本,而且改变了人们消费信息的习惯。人们不再满足于被动的消费信息,转而成为制造和传播信息的主体。全民自媒体时代催生出更为严峻的

【作者】

：

李超阳

【出处】

：

北京工业大学

【发表日期】

：

2017年01期

【关键词】

：

微博检索查询扩展非负矩阵分解正则化约束

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

社交媒体的兴起,不仅降低了人们沟通的成本,而且改变了人们消费信息的习惯。人们不再满足于被动的消费信息,转而成为制造和传播信息的主体。全民自媒体时代催生出更为严峻的“信息过载”难题。一方面,微博媒体的短文本语言范式,如长度限制,特殊字符广泛使用,表达口语化等特性,使得传统长文本检索方法在微博检索中性能劣化,甚至完全不可用。另一方面,主流社交媒体平台,如微博、Twetter和Facebook等,迫切希望构建快速、智能的微博信息过滤系统,为用户提供更加有效的信息推送服务。这就要求我们对适用于微博短文本检索的方法进行深入研究。现有的诸多改进短文本检索性能的方法中,通过查询扩展提升微博检索性能的方法,因其简单易行且性能优异,得到了研究者的广泛关注。但随着对查询扩展的方法研究的深入,发现现有算法仍存在以下问题亟待解决:(1)用户查询意图理解困境。通常用户显式查询只是用户信息需求的简单抽象,从中很难推断用户的实际搜索意图。(2)多源信息扩展风险管理。通常引入多源信息进行查询扩展被证明能有效提升检索性能,但是如何使用多源数据以及如何管理扩展风险仍然有待研究。为了解决上述问题,本文提出了一种用户过滤意图推理方法,通过组合内、外部多源信息,同时引入风险最小化迭代模型实现最佳查询扩展,达到拉近原始查询和用户实际搜索意图的距离的目的。该算法的主要贡献总结如下:(1)为了应对用户查询意图理解困境,我们综合利用检索文档集中的内部知识和多源外部反馈知识扩展用户原始查询,为了管理扩展过程中伴随引入多源外部扩展信息带来的扩展风险,本文基于非负矩阵分解(non-negative matrix factorization,NMF)方法,提出了一种结合内部-外部知识的查询扩展(Internal and External Knowledge Expansion,IEKE)方法,通过构建正则化约束算子,实现查询扩展风险最小化,达到拉近原始查询和用户实际搜索意图距离的目的。(2)此外,面对数据的爆发式增长,如何快速处理海量数据是现在研究热点。我们探讨了利用CUDA、Spark等并行化技术,利用分布式数据计算平台实现IEKE内部-外部知识的查询扩展方法快速迭代计算。在TREC(Text REtrieval Conference)提供的Microblog语料库上的实验对比表明,基于内部-外部知识协同扩展的微博检索优化方法,能够极大提升微博检索性能。同时算法的并行化实验也表明,在略微牺牲计算性能的基础上,CUDA平台并行化具有非常大的速度优势,但是由于显卡内存的限制,在特大数据集上Spark平台并行化提供了在廉价硬件上计算的可能。

其他文献

自然地震与断层带相关性分析研究

地震是一种很严重的自然灾害,全世界每年因地震造成的破坏和财产损失不计其数。破坏性地震通常发生在构造区和活动断裂带上。由于大陆板块内部存在块体之间的相对运动,且活动

学位

断裂带匹配序列预处理地震预测

中性点对大气偏振模式∞字形特征分布的影响分析

大气偏振模式蕴含丰富的信息,通过对大气偏振模式分布特征的检测和演算,可获得空间方位、地表特性以及大气成分等信息,对偏振光导航、生物偏振感知机理、大气光学特性分析以

学位

大气偏振模式∞字形特征偏振场奇点理论中性点太阳位置

单位球上一类狄利克雷边值问题解的正则性与刚性

本文主要研究在空间Cn内单位球Bn上退化的二阶椭圆偏微分方程解的刚性与正则性问题.带有光滑系数的一致椭圆微分方程解的正则性已经得到解决,可参考(Evans’ book[2]and Trud

学位

退化椭圆偏微分方程Dirichlet边值问题Bakry-Emery-Kohn拉普拉斯算子正则性刚性

Comma范畴的若干研究

本学位论文研究Comma范畴的投射盖、(半)完全性与AR序列的保持问题,广义Comma范畴的粘合问题.在全面阐述与本学位论文有关的研究方向:范畴理论,粘合理论,范畴的扩张与完全性

学位

Comma范畴(半)完全范畴MV构造法AR序列粘合

基于权重采样的AD-LDA分布式主题模型的研究

随着互联网和计算机技术的快速发展,世界各个行业的数据量呈爆炸式增长。超大规模的数据已经远远超出了现有计算技术和信息系统的处理能力。寻求有效且高效的文本主题模型来

学位

Gibbs采样AD-LDASpark权重计算

基于改进杜邦分析法的SD天然气管道公司盈利能力分析

中国作为快速崛起的工业大国,能源供给对于国家来说至关重要。但是环境的压力使得国内对于清洁能源的需求扩大,而天然气是清洁能源的重要组成部分。天然气的输送载体主要是天然气管道,那么作为承建天然气管道的公司,其重要性也就不言而喻。作为公司的成长的基础与前提,盈利则是其发展的基础与动力。本文总共分为六部分。第一部分是绪论,介绍了论文的研究背景和意义,并且对国内外的文献进行总结评价,然后表明研究思路与方法。

学位

杜邦分析法SD公司天然气管道行业盈利能力财务杠杆

休闲恢复体验对组织公民行为的影响

组织公民行为是员工自愿做出的有益于组织的角色外行为,是企业管理过程中一个不容忽视的重要问题。组织公民行为有益于形成员工间融洽的氛围,对组织内部文化建设至关重要;有

学位

组织公民行为休闲恢复体验生活满意休闲满意

安徽安庆大龙山花岗岩类特征及成因

长江中下游成矿带内发育江北、江南两条富碱花岗岩带。对于这些富碱花岗岩类的研究将为正确认识长江中下游地区中生代岩浆成矿作用补充重要信息。大龙山岩体位于江北富碱花岗

学位

A型花岗岩类岩浆演化岩石成因大龙山岩体

民航突发事件网络舆情关注点演化研究

文章以民航业发生的突发事件引起的网络舆情为主要线索,结合国内外文献,通过研究民航突发事件网络舆情的变化,归纳民航突发事件网络舆情关注点的变化规律。以A航空公司应对突

期刊

民航突发事件网络舆情关注点

论新媒体环境下民航业的宣传与发展方向

随着科学技术的迅速发展,媒体行业逐渐转型,从传统的媒体时代跨入了以网络为代表的新媒体时代。新媒体环境下,民航业如果想要更好地进行品牌形象的构建,就需要不断整改问题,

期刊

新媒体民航业宣传发展方向

基于内部—外部知识协同扩展的微博检索优化研究

其他学术论文