Email检索系统的设计与实现

来源 :复旦大学 | 被引量 : 0次 | 上传用户:yzl1983523
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
20世纪90年代互联网的成功,对信息检索领域产生了巨大的变革。互联网由于数据量庞大、广告、风格的多样化导致了网页检索的兴起。现在,信息检索领域又面临一个同样巨大的挑战:找到一种高效的检索算法来处理复杂的企业内部局域网信息。Email检索是企业检索领域的7大关键开放问题之[1]。网页和文本文件已经有比较成熟的技术。然而,Email检索,包括Email线索树的拓扑关系,Email结构(主题,发信时间,发信人等)的处理,Email对其回复Email的全部或部分抄写等问题,都没有没行之有效的方法。TREC2005年Email检索任务的第一次提出,提供了研究和评测的平台。 作者在TREC平台下设计和实现了Email检索系统。从Email邮件本身的内部结构,查询,训练问题等角度对Email检索进行了分析,提出了一系列需要解决的问题,并使用命名实体识别方法和基于Email文档结构的方法来解决,一定程度上改进了检索的效率。 本文工作的主要贡献总结如下: ·本文建立了Email信息检索系统,一个包含语料处理,查询处理,查询等功能的系统,并且在TREC中得到实际应用。 ·本文从Email邮件本身的内部结构,查询,训练问题等角度对Email检索进行了分析,提出了Email检索系统需要解决的问题和难点。 ·本文分析了Email的文档结构特征,给出了提取抄写部分的方法,并分析了在各种检索模型中文档结构的应用效果。 ·本文提出了使用命名实体识别方法对查询作预处理并很好的运用于Email检索领域,实验表明,改进是明显的。
其他文献
互联网中的流量由数以万计的不同应用产生,其构成结构会随应用的变化而变化。充分掌握网络总体的流量构成以及各种成分的变化规律对网络管理和网络行为学的研究具有重要意义。
学位
随着全球信息化的飞速发展,计算机网络安全问题日益突出,黑客入侵、信息泄密以及病毒泛滥所带来的危害引起了世界各国的高度重视。网络信息安全已成为亟待解决、影响国家大局
随着生物信息学的发展,数据挖掘技术为其提供了越来越重要的技术支持,而关联规则挖掘技术是数据挖掘领域中的重要组成部分。但在应用过程中由于生物数据的特点,传统算法需要进一
随着信息技术、网络通信和电子交易的迅猛发展,信息安全已成为全球最为热门的研究领域之一。传统的以密码方式进行身份认证的技术日益暴露出很多弊端。为确保信息安全,用人特
目前大多数处理器均采用超标量超流水线结构来提高处理器的硬件资源利用率,加快CPU的运行速率,以满足人们不断提高的对计算机性能的要求以及日益复杂的软件系统带来的高性能
在身份验证中,相对于其他生物特征识别而言,人脸特征识别是最直接、最方便友好的手段。近几年来人脸识别技术已成为国内外学者研究的热点。计算机人脸识别技术是指利用计算机对
移动代理是一个自主程序,它可以按照自己的意愿从一台计算机迁移到另一台计算机。这种程序可以选择何时迁移以及迁移的目的地,它能够在任意点悬挂,把自己传送到另一台机器上
本文探讨了崩落体形成过程中外部环境因素的重要影响,避开复杂的流动力学处理过程,利用神经网络技术处理了崩落体形态,并使用计算机程序加以实现,最后证实模拟效果与实际数据误差
风力发电的随机性、间歇性、不稳定性以及大规模风电的并网给电网调度和电力系统安全稳定形成新的挑战和风险。此外,风电并网也会对无功电压产生影响。通过实时监测风机的电压、功率、电流及各种运行状态数据,我们建立一个信息可视化分析系统来实时展示风机状态,并且可以对数据进行深入挖掘统计,找到风机的运行规律,从而保证风机的正常化运行。信息可视化技术是将抽象的数据信息通过图形、图像的形式具体化展示出来,其中也包括