信息检索结果优化研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:hou0608
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息检索是中文信息处理中的一项重要课题,其内容涉及到术语抽取、词义消歧、句法分析等方方面面,同时在机器问答、自动文摘、统计机器翻译等各领域又有着广泛的应用。为了减小信息检索过程中的因为中文多样性,模糊性等一些不确定性因素带来的消极影响,信息检索的优化就成为了该领域的研究重点与发展动力。信息检索的优化包括检索模型、分词粒度、查询扩展、结果重排等方面,本文在分析比较了各优化因素所带来的影响后,对结果重排进行了较为详细的分析与研究。主要的工作包括以下几个方面:第一,深入研究了信息检索结果优化的方案,并设计实验比较了不同优化因素为检索效果带来的影响,为该领域提供了一定的基础研究数据。第二,提出了一套基于主题词对的信息检索结果重排策略,详细分析了主题词对的语言特性,利用概率潜在语义分析获取主题词对,进而根据主题词对在文档中的分布状况对其进行重排。为信息检索领域的优化研究提供了一种有效的方案与研究思路。第三,设计实现了一个重排的原型系统,从词对的视角出发去聚焦查询主题,通过词对在文档中的分布状况重新判断查询与文档的相关程度,减小了查询扩展时对查询主题向单方向无限延伸的可能性。综合运用论文中研究的方法,对NTCIR-5中文信息检索的文档集合进行测试,采用TREC标准评估方法,结果显示本文方法优于传统伪相关反馈方法,采用该方法使得精确率在rigid和relax结果集上相比首次检索的结果分别提高了76.0%和58.8%。同时发现该方法的核心主题词对的选择并不依赖于特定算法,这一结论对于探讨主题词对改进检索系统的结果排序有一般性意义。
其他文献
本文介绍了一个基于分层无线Ad Hoc网络,并自主实现的实时视频信息传输系统,详细讨论了系统中视频子系统的研究与实现。该系统具有较高的研究价值和广泛的应用前景,目前主要
工作流技术是近年来发展最为迅速的几项新技术之一。它是实现企业业务自动化的核心技术,也为协调复杂业务过程活动提供了有效的方法。工作流管理系统是开发和执行工作流的工具
模型驱动架构(MDA)是由OMG定义的一个软件开发框架,它以模型作为整个软件开发过程的中心,贯穿于需求分析、设计、实现和维护的全过程。MDA严格区分系统的功能规约与实现细节,在
三维空间数据场可视化分为“直接体绘制”和“间接体绘制”两种不同的方法。其中,MC(Marchling Cubes)算法是广泛应用的“间接体绘制”算法之一,该算法通过生成中间几何图元来
多源传感器图像融合就是将来自多个信息源的图像数据加以处理与综合,产生比单一传感器数据更精确、更可靠的描述和判决,使融合图像更符合人和机器的视觉特性,更有利于诸如目标检
随着因特网和个人电脑应用的不断普及,信息安全问题受到人们越来越多的关注。日益增多的各类黑客攻击、木马和计算机病毒严重地威胁着全球的计算机信息系统。其中,个人电脑又是
随着IEEE 802.11等无线接入技术的发展,无线Mesh网络已经逐步成为企业界和消费者瞩目的焦点之一。如何提高无线Mesh网络的容量来满足用户日益增长的带宽需求(如实时音频、视频
随着我国信息化发展进程加快,信息化覆盖面扩大,信息安全问题也就随之增多,其影响和后果也更加广泛和严重。同时,信息安全及其对经济发展、国家安全和社会稳定的重大影响,正日益突
在这个信息化时代,由于互联网的迅速发展和电脑的普及,万维网已成为具有无穷潜力的信息索取和信息交换能力的全球信息资源中心,它对人类的各方面行为将产生日益重要的影响。
缺陷管理作为软件项目管理中的重要环节,目前其管理模式依然是:找出缺陷、修改缺陷、进行回归测试这种面向流程处理的传统模式。如何有效的对软件缺陷进行管理?如何对缺陷进行