论文部分内容阅读
随着计算机技术的日益发展和网络的迅速普及,电子文档数目急剧膨胀,从大量的信息里面快速、全面、准确地查找所需要的资料信息已经成了人们关注的焦点,也成了研究领域内的一个热门课题。目前,信息检索技术的最新应用是国内外公司相继推出的桌面搜索引擎。桌面搜索的特点在于不需要通过浏览器来进行搜索,并且将搜索方位延伸到自己电脑硬盘中所存储的各种文档,能够让用户快速搜索他们的硬盘并且在不到一秒的时间里得到相关的搜索结果。桌面搜索引擎是集成信息检索技术的典型代表,信息检索的核心技术是全文检索技术。在基于P2PKM的学习支持平台系统下,我们需要一个更加完善的桌面搜索引擎,本文通过对全文检索技术、Lucene全文检索引擎工具包和近似镜像文本检测算法的分析和研究,对学习支持平台系统的桌面搜索引擎进行了扩展和完善:改进了Lucene的中文分词技术,支持多种文档格式文件的搜索,并提出应用MD5指纹的近似镜像文本检测算法对本学习支持平台中索引前的文档进行消重处理的方法。经过本文的扩展,使得学习支持平台的桌面搜索引擎能满足用户更多的需求。