论文部分内容阅读
20世纪90年代互联网的成功,对信息检索领域产生了巨大的变革。互联网由于数据量庞大、广告、风格的多样化导致了网页检索的兴起。现在,信息检索领域又面临一个同样巨大的挑战:找到一种高效的检索算法来处理复杂的企业内部局域网信息。Email检索是企业检索领域的7大关键开放问题之[1]。网页和文本文件已经有比较成熟的技术。然而,Email检索,包括Email线索树的拓扑关系,Email结构(主题,发信时间,发信人等)的处理,Email对其回复Email的全部或部分抄写等问题,都没有没行之有效的方法。TREC2005年Email检索任务的第一次提出,提供了研究和评测的平台。
作者在TREC平台下设计和实现了Email检索系统。从Email邮件本身的内部结构,查询,训练问题等角度对Email检索进行了分析,提出了一系列需要解决的问题,并使用命名实体识别方法和基于Email文档结构的方法来解决,一定程度上改进了检索的效率。
本文工作的主要贡献总结如下:
·本文建立了Email信息检索系统,一个包含语料处理,查询处理,查询等功能的系统,并且在TREC中得到实际应用。
·本文从Email邮件本身的内部结构,查询,训练问题等角度对Email检索进行了分析,提出了Email检索系统需要解决的问题和难点。
·本文分析了Email的文档结构特征,给出了提取抄写部分的方法,并分析了在各种检索模型中文档结构的应用效果。
·本文提出了使用命名实体识别方法对查询作预处理并很好的运用于Email检索领域,实验表明,改进是明显的。