论文部分内容阅读
总结了互联网信息检索的相关技术,提出了多粒度索引的技术。多粒度索引技术采用了统计学方法,综合了短语索引和词语索引的优秀思想。该方法先识别文档中包含的未登录词语,然后把识别出来的未登录词语依次放在一个扩展的词典里面。在创建索引的时候,对文本进行两趟词语切分。第一趟是采用基本的分词词典。第二趟词语切分是对上面的结果采用基于扩展分词词典的方法。基于多粒度索引技术设计了互联网信息检索系统,实验数据显示系统在准确率、召回率以及综合评分F-measure上均取得了较好的效果。