基于Lucene的全文检索系统模型的研究

被引量 : 0次 | 上传用户:woshiwangxincheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文索引和检索是一种非常高效的信息检索技术,它极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。作为开源组织Apache Jakarta的成员项目,Lucene是一个用Java语言实现的成熟、自由、开源的软件项目,是一个高性能的、可扩展的信息检索工具库,可以方便快捷地融入到应用程序中以增加索引和搜索功能。目前,Lucene的核心包和扩展包对中文分词采取类似英文的机械式切分方法。但是,由于中英文之间在形式上存在着巨大的差异,这种切分方法的分词效果是非常粗糙和低效的。在对包括中文分词技术在内的全文检索技术和Lucene内核的分词原理进行分析和研究的基础上,本文设计实现了一个基于词库的、采用正向最大匹配算法的中文分词模块。测试结果表明,与Lucene内核包采用的单汉字切分方法和其扩展包针对中日韩等亚洲语言采用的二元切分方法相比,该模块具有效果更好、性能更优的比较优势。此外,为了使Lucene可以方便、无缝地嵌入到应用程序中,Lucene的内核被设计得非常小巧,它的处理对象局限于纯文本数据。在现实世界中,纯文本格式的文档正处于逐渐减少的趋势,取而代之的是,越来越多的电子信息采用各种格式文档的形式保存。本文设计与实现的基于Lucene的全文检索系统模型采用接口实现的方式,并且使用动态实例化的方法,能够统一、有效地处理txt、xml、html、pdf、doc和rtf等多种常见的格式文档,其突出的优点与特点是在最大限度地为用户屏蔽各种格式文档差异性的同时,极大地扩展了Lucene可以处理的格式文档的类型。文章的最后在对系统设计与实现过程中的关键点进行探讨的基础上,对中文分词的准确性和召回率、检索结果处理、查询接口实现、索引更新策略等问题进行了引申,并提出了自己的见解,这些将作为今后继续努力的方向。
其他文献
目前体育赛事已成为城市营销的重要资源与手段,本文对国外一些城市通过体育赛事进行城市营销的经验进行了归纳和总结,大致为以下几条:举办体育赛事致力于城市可持续发展;体育
污水处理和雨水处理是解决水资源短缺的两个有效途径。目前,城市污水处理率已达到较高的比率。解决水资源问题主要从处理雨水着手。雨水处理、收集利用能起到缓解水资源短缺
笔者在实习期间随带教老师用针灸方法治疗黄褐斑30例取得满意疗效.主要方法是局部的围刺,散刺结合常规体针取穴,另外配以辨证取穴,治疗3个疗程统计疗效,现总结如下.
建筑安全监督管理工作首先要准确定位,然后根据工作职能建立一套较为完整的建筑安全监督管理制度和行之有效的建筑安全监督管理机制,培养和造就一支政治坚定、作风过硬、业务
中国古老的清廉文化传统,肇始于西周,形成于春秋战国,确立于汉唐,成熟于宋元明清。主要由政治之道和政治之德构成的清廉文化,其核心价值是清廉,是防范为先、道德自律与自觉的
介绍了制备InP单晶材料的主要方法,包括传统液封直拉技术(LEC)、改进的LEC技术、气压控制直拉技术(VCZ0PC-LEC)0垂直梯度凝固技术(VGF)0垂直布里奇曼技术(VB)等。对这些方法
太阳能作为一种清洁能源具有取材方便、成本低廉的优势,因此越来越受到人们的广泛关注。近年来,随着人们对环境问题认识的深入和能源问题的进一步恶化,越来越多的建筑开始使
本文通过对单元式幕墙技术的分析,提出了解决多种幕墙的技术方法。同时对插接缝部位防水构造的设计上提出了相应观点。
本文将从寿险资金运用业务的基本理论研究入手,对国内外保险资金投资情况的分析研究,为我国寿险资金投资中存在的问题进行诊断,提出对策。结合寿险资金运用特点及我国运用的状况
“洛阳”是东汉文学集中书写的一个主要形象,从杜笃《论都赋》对洛阳“淳瀯”的否定到班固《两都赋》塑造的“仁德”的洛阳形象,中经《二京赋》对这一经典形象形同质异的改变,最