论文部分内容阅读
信息检索是中文信息处理中的一项重要课题,其内容涉及到术语抽取、词义消歧、句法分析等方方面面,同时在机器问答、自动文摘、统计机器翻译等各领域又有着广泛的应用。为了减小信息检索过程中的因为中文多样性,模糊性等一些不确定性因素带来的消极影响,信息检索的优化就成为了该领域的研究重点与发展动力。信息检索的优化包括检索模型、分词粒度、查询扩展、结果重排等方面,本文在分析比较了各优化因素所带来的影响后,对结果重排进行了较为详细的分析与研究。主要的工作包括以下几个方面:第一,深入研究了信息检索结果优化的方案,并设计实验比较了不同优化因素为检索效果带来的影响,为该领域提供了一定的基础研究数据。第二,提出了一套基于主题词对的信息检索结果重排策略,详细分析了主题词对的语言特性,利用概率潜在语义分析获取主题词对,进而根据主题词对在文档中的分布状况对其进行重排。为信息检索领域的优化研究提供了一种有效的方案与研究思路。第三,设计实现了一个重排的原型系统,从词对的视角出发去聚焦查询主题,通过词对在文档中的分布状况重新判断查询与文档的相关程度,减小了查询扩展时对查询主题向单方向无限延伸的可能性。综合运用论文中研究的方法,对NTCIR-5中文信息检索的文档集合进行测试,采用TREC标准评估方法,结果显示本文方法优于传统伪相关反馈方法,采用该方法使得精确率在rigid和relax结果集上相比首次检索的结果分别提高了76.0%和58.8%。同时发现该方法的核心主题词对的选择并不依赖于特定算法,这一结论对于探讨主题词对改进检索系统的结果排序有一般性意义。