微博检索技术研究与实现

来源 :厦门大学 厦门大学 | 被引量 : 0次 | 上传用户:acxyvpfag
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文从研究和设计的角度出发,对微博检索系统的相关理论与技术对比分析,提出改进,主要的改进工作为:第一,从伪相关反馈扩展角度出发,每个反馈的文档依据查询事件的爆发时间分布具有不同的先验概率,采用不同的时间分布模型,本文提出动态伪相关反馈扩展方案;从扩展查询同义词角度出发,提出基于词向量的相近词查找方案;第二,改进了检索模型,作为扩展的概率模型,本文使用随机性差异框架,该框架具有较强的可扩展性;第三,对于检索的结果进行了二次优化,提出集成学习排序算法策略,促使排序靠后的相关文档获得较高的排序,以提高用户的体验效果。  本文在各模块改进的基础上,提出了完整的微博检索系统框架,通过对比实验证明了该检索系统的有效性,并且检索出的相关文档还能进行二次开发。因此,基于微博的检索技术的研究具有十分重要意义,并且具有较高的实用价值。
其他文献
随着计算机网络的快速发展,以及计算机用户的增多,使得Internet上的信息呈爆炸式增长。传统的基于C/S结构的文件共享系统已经不能满足用户的需求,一批基于P2P结构的文件共享系统
随着人们工作压力的日益增大,心血管疾病是现代工业社会中对人类生命威胁最大的疾病,我国城镇中现有4000多万冠心病患者。由于心脏疾病发病时具有很大的突然性,如果失去了宝贵
AdHoc网是由一组带有无线收发装置的移动终端组成的一个多跳临时性自组织网络。它起源于军事上的需求,并且近几年来,随着便携式计算机设备的普及以及无线通信技术的快速发展,人
基于模型的诊断是由Reiter在1987年提出的一种基于逻辑推理的故障诊断方法.待诊断系统的行为可以通过系统的输入输出变量之间的对应关系来描述.由于其一般性和在许多领域的应
电子邮件过滤系统的主要任务是帮助用户节省手动删除垃圾邮件的时间和精力,帮助服务器过滤掉垃圾邮件以节省网络资源。邮件过滤属于文本分类的二值分类,系统必须具有实时性、高
许多工业生产存在非线性、时变性、维数高的等不确定性特点,因此较难用传统的建模方法进行精确地描述。为构造一个合理的、可追踪的模型就需要引入模糊性的概念,并且理论已经证
数字视频属于国家重点发展的信息产业领域,宽带网络和数字电视的迅速发展,使得视频点播、交互电视、视频网站等应用都将面临大量涌现的数字化视频数据,对视频摘要技术的研究对基
语义网提出以来,本体(ontology)正在成为人工智能和知识工程中的一种重要工具,在知识的获取、表示、分析和应用等方面具有重要的意义。其中,本体的构建与扩展是本体研究的核心和
课程编排对每个大学的管理部门来说都是每个学期不得不面对的一个挑战。大学课程编排问题是一个NP完全问题。对大多数大学教育机构来说,课程编排是最普通最难的问题之一。课程
网页和纯文本的结构差异性决定了传统的信息检索排序算法不能完全适应网络发展,基于链接分析的网页排序算法便应运而生,并成为现代搜索引擎的关键技术。知名的搜索引擎公司在对