论文部分内容阅读
随着网络的发展,Internet上的信息量不断地扩增,这其中每天更新的信息就有数以万计之多。要在这样的一个庞大的信息库中找到自己有用的信息需要一个高效的检索工具来完成,而网络资源本身已经从文本格式变得多元化了,面对多领域、多元化的信息数据,出现了领域搜索—垂直搜索。这时,问题也随之而来,如果用户知道自己要检索的信息属于哪个领域,可以直接在该领域内检索。但是如果用户不知道,那么就涉及到当查询出现时垂直归属问题。本文正是在这一问题上进行研究的。本文采用了本体语义扩展,来对用户查询实现查询串上的预处理,对初始查询经过本体语义扩展,扩展为以初始查询为中心的概念集合。对于扩展后的查询集合,设计并实现了利用查询日志建立倒排索引,通过倒排索引对扩展后的查询集合进行修剪。以将查询扩展带来的噪声影响降到最低。最后的垂直选择部分涉及到了两部分文档得分的计算,分别是初始查询的文档得分及扩展后查询的文档得分。初始查询文档的得分通过文档的反转频率及词频来计算得到;而后一部分的查询则利用了查询日志中与查询有关的文档点击频率及顺序,通过抽取这些信息,得到文档的反转频率及文档权重因子,并由此计算文档得分。最后将两部分得分的和值做为文档的综合得分,并将各文档得分的加权值作为领域得分。以此做为垂直选择的依据。实验表明加入本体语义扩展和日志倒排索引的系统,对于垂直选择的准确性有了很大的提高。