基于P2PKM的桌面搜索优化的研究

来源 :广西大学 | 被引量 : 0次 | 上传用户:hhgzju1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术的日益发展和网络的迅速普及,电子文档数目急剧膨胀,从大量的信息里面快速、全面、准确地查找所需要的资料信息已经成了人们关注的焦点,也成了研究领域内的一个热门课题。目前,信息检索技术的最新应用是国内外公司相继推出的桌面搜索引擎。桌面搜索的特点在于不需要通过浏览器来进行搜索,并且将搜索方位延伸到自己电脑硬盘中所存储的各种文档,能够让用户快速搜索他们的硬盘并且在不到一秒的时间里得到相关的搜索结果。桌面搜索引擎是集成信息检索技术的典型代表,信息检索的核心技术是全文检索技术。在基于P2PKM的学习支持平台系统下,我们需要一个更加完善的桌面搜索引擎,本文通过对全文检索技术、Lucene全文检索引擎工具包和近似镜像文本检测算法的分析和研究,对学习支持平台系统的桌面搜索引擎进行了扩展和完善:改进了Lucene的中文分词技术,支持多种文档格式文件的搜索,并提出应用MD5指纹的近似镜像文本检测算法对本学习支持平台中索引前的文档进行消重处理的方法。经过本文的扩展,使得学习支持平台的桌面搜索引擎能满足用户更多的需求。
其他文献
随着信息技术日新月异的发展,人类正在进入以网络为主的信息时代,基于Internet开展的电子商务已逐渐成为人们进行商务活动的新模式,越来越多的人通过Internet进行商务活动,电子商
随着互联网的高速发展和办公自动化的日益普及,全球电子文档分发的开放式标准已经变为PDF(portable document format)文件,PDF文件是基于PostScript文件格式之后的一种新的输出
随着Internet的迅速发展,需要更高网络服务要求的网络应用也越来越多,比如网络电话、视频点播、网络会议等。但是,目前基于TCP/IP的因特网只能提供“尽力而为”的服务,而没有
定位技术的快速发展和基于位置服务的广泛应用,产生了大量与移动用户相关的轨迹数据集;通过对轨迹数据集进行分析和挖掘,能够得到一些有价值的信息。然而,现实生活中,对于已
当今,web站点数目迅速增长的同时,各个web站点的信息量及其复杂度也在迅速上升,一个网站包含成千上万网页与超链接是很平常的。因此给用户访问也增加了一定的难度。特别随着无线
基于样图的纹理合成是近年来发展起来的一种新的纹理合成技术,用于解决传统方法中出现的接缝、扭曲和参数调整等问题。它在图像编辑、破损图像的修补、数据压缩、网络数据的快
Internet目前已成为人们工作和生活中的一个基本部分,它提供了通用的网络连接。TCP/IP是目前互联网所使用的主流技术体系。由于最初的TCP/IP协议栈本来是为了窄带文本数据而
随着移动增值业务的发展,人们已经不能满足于单纯的语音业务或者单纯的数据业务。包含语音,视频,数据在内的多媒体业务必然是移动增值业务的一个发展方向。第三代移动通信(3rd G
近年来,对等网络技术发展迅速,大多数对等网络的研究和开发都是围绕资源共享展开的。从文档资源定位的角度考察,现有的对等网资源共享系统都仅支持基于文件名的粗粒度资源定
随着Internet和Web技术的迅速发展,传统的分布式计算技术已不能满足Web应用环境,Web服务应运而生。它以自包含的、模块化的、松散耦合的、基于标准的等优点成为当今工业界和