论文部分内容阅读
索引项(Index Unit)的提取是中文全文检索领域的关键技术之一。将通用搜索引擎的索引项提取策略应用于某一专业领域的检索系统中,会出现因标引词典无法覆盖该领域的专业词汇而造成的查准率偏低和因辞典不断加入专业词汇而造成检索效率降低的矛盾。介绍了一种面向专业领域的索引项提取策略,通过在提取过程中区分索引项和专业索引项并分别计算其权值,提升专业索引项与目标文档的相似度。在北京公安交通管理领域的网页数据集进行实验,证明该索引策略在查询专业领域信息时可提供较高的查准率并显著提高检索效率。