基于时间特性的微博检索和微博过滤研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jojoyks
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交媒体和移动互联网的迅速发展,以微博为代表的短文本信息流的处理技术变得越来越重要。面对海量微博和众多用户多样性的信息需求,微博检索和微博过滤已经成为微博服务不可或缺的重要组成部分。近年来,微博的时间特性引起了研究者的注意。研究表明,微博的时间特性为微博检索性能的提高提出了一个新的解决途径,基于时间的检索技术逐渐成为微博检索的研究热点。本文关注利用时间特性来提升微博检索和微博过滤的性能,围绕查询建模、文档建模、查询与文档相关度计算以及过滤模型展开研究,力图利用微博的时间特性缓解短文本给基于内容的微博检索带来的困境,并利用历史微博的排序信息及时间特性,提高微博过滤的性能。本文研究的具体内容如下。(1)针对微博查询短的问题,提出了基于词语时间分布的查询模型。本文首先分析了扩展词与查询词在时间分布上的特点,在提出词语时间分布的定义和估计方法的基础上,给出了查询词与扩展词的时间分布相似性的度量,以此作为它们的相关度,完成扩展词的选择和查询模型的重估。本文方法利用时间信息而不是内容来扩展查询,避免了基于内容的查询扩展方法因微博内容短而无法准确估计扩展词的不足。(2)针对微博内容短的问题,提出了基于时间的微博文档模型。该模型尝试利用词在爆发期内微博上的分布以及词在时间近邻微博上的分布来估计扩展词的权重,并提出了基于机器学习的扩展词选择方法,据此构建文档扩展模型,并利用该文档扩展模型估计更准确的文档模型。为优化基于时间的文档模型的时间复杂度,本文提出了两个优化的时间文档模型,减轻了文档扩展带来的系统开销。(3)针对短文本给微博与查询的相关度计算带来的影响,将时间特性引入到微博检索中。使得微博检索在考虑内容相关度之外,还考虑了微博与查询在时间上存在的多种相关度,以使排序结果更符合相关微博的时间特性。具体而言,在经典语言模型检索框架下,给出了三种利用时间关系优化检索结果的方法;在排序学习框架下,提出了一种基于时间敏感的排序学习算法,设计了时间敏感损失函数,提高了微博检索的性能。(4)针对在微博实时过滤中传统分类模型过滤效果不佳的问题,提出了基于历史微博信息的微博实时过滤模型,有效地融合了检索模型和分类模型。具体而言,本文提出了基于历史微博的微博实时过滤模型的框架,将历史微博的排序信息以及时间近邻信息应用在检索模型中构建先验知识,并利用先验知识动态调整分类模型的分类面。进一步,以语言模型和逻辑回归模型为例,实现了该框架的一个实例,并给出了具体参数的估计方法。
其他文献
随着环保标准的不断提高以及行业技术的革新,太钢以实现环境保护卓越绩效水平为阶段性目标,持续开展烧结系统超低排放技术研究与生产实践工作。通过对系统进行技术改进和装备
社会网络因为其结构复杂,用户行为各异,用户各种活动产生的数据量巨大,因此,对其的研究充满了挑战。正因为如此,也吸引了各方研究人员的注意,取得了丰富的研究成果。但是,在
在可用网络服务盛行的今天,网络服务标榜在组织内和组织间使用公共服务描述语言进行注册,基于用户功能性和非功能性需求的服务质量(QoS)必须被推广。然而,最常见的注册和服务
因特网在经历了几十年的辉煌之后遇到了发展瓶颈。随着大量协议及应用的加入,网络设备的功能越来越复杂,软件越来越庞大,再加上软硬件高度耦合且封闭的设备架构,网络创新变得
面对市场经济新形势的严峻挑战 ,如何寻找一条适合本校实际情况的发展道路 ,建立一条高效率的运转机制以促进学校发展已成为一个不容忽视的问题。本文就机制运转的内部协调性
目的比较研究口腔炎喷雾剂与康复新口服液治疗口腔溃疡的效果。方法选取我院110例(2015年4月17日到2017年4月17日)口腔溃疡患者为本次的研究对象,采用随机分组原则将其分为对
挡土墙是用于阻止土壤变形、坍塌的一种建筑物,在岩土工程中被广泛应用。水工挡土墙是在有水工况下的一种特殊形态的挡土墙结构,在设计原理上与普通挡土墙一致。这类水工挡土
针对当前电子商务环境中信任关系难以建立、计算的信任值不准确、对影响信任的多种因素进行科学合理的权重分配以及电子商务交易环境(互联网)和工具(软件)的安全可靠性问题等
近年来,P2P网络因具有自组织和分布式的特性,以及能够充分利用Internet中的大量计算能力和共享资源而得到快速发展。基于簇结构的P2P网络针对不同节点的行为特点和计算能力等
随着"互联网+"行动计划的推进,各行各业的信息化程度越来越高,这些互联网平台都成为感知用户行为的"社会传感器"。综合各个"社会传感器"感知的用户行为,可以分析和预测用户行