搜索引擎关键技术研究及性能优化

被引量 : 0次 | 上传用户:zeibao123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
全文索引和检索是一种非常高效的信息检索技术,它极大地提高了从大量纷繁复杂的数据中查找特定信息的效率。作为开源组织ApacheJakarta的成员项目,Lucene是一个成熟、自由、开源的软件项目,是一个高性能的、可扩展的信息检索工具库,可以方便快捷地融入到应用程序中以增加索引和搜索功能。目前,Lucene的核心包和扩展包对中文分词采取类似英文的机械式切分方法。但是,由于中英文之间在形式上存在着巨大的差异,这种切分方法的分词效果是非常粗糙和低效的。在对包括中文分词技术在内的全文检索技术进行分析和研究的基础上,本文设计实现了一个基于词典的、采用正向最大匹配算法的中文分词模块。测试结果表明,与Lucene内核包采用的单汉字切分方法和其扩展包针对中日韩等亚洲语言采用的二元切分方法以及传统的基于词典的中文分词方法相比,该模块具有效果更好、性能更优的比较优势。此外,信息检索的实践表明,由于自然语言中存在着大量的同义词、近义词,用户在检索的时候很难全部列举出表示同一概念的不同词汇表达形式,因而易造成漏检。本文实现了一种同义词检索的解决方案,提高了查全率。Lucene使用了倒排索引结构,查找效率高,节省空间。被索引的词条除文本值外,还有其所在的文档号,出现位置和出现频率等信息,在写入索引的过程中通过人为干预,将原词条的同义词插入语汇单元流的适当位置,并设置其位置信息,索引后的同义词在文档中的位置和原词条一致,可以达到检索包含输入词的同义词的记录的效果。本文在设计词典时加入了同义词的存储结构,事实证明具有较高的访问效率和容易维护的特点。在应用方面,本文主要工作是专利著录项目检索系统的设计与实现。系统在文档数据加工、格式转换等相关工作的基础上,完成构建分词器、索引器、查询器、数据库存储设计等内容,最终实现了系统对中外文专利著录项目的检索、文摘信息浏览、全文说明书的查看和下载等功能。
其他文献
<正> A Asuro ~和Ⅵ Ds是一个药吗? 11-704 Auranofin ~是一种什么药? 目前评价如何? 9-576 阿兰吐英~药性化妆品霜剂系列新产品通过鉴定 10-616 阿普唑仑~ (甲基三唑安定、佳静
为研究人工强化河道处理技术——生物接触氧化工艺处理河道污水的能力,实现治理条子河的目的,采用砾石和火山岩填料作为微生物载体并利用稀释后的生活污水模拟河道污水。对工
<正>感性诉求针对消费者的心理和精神需求,表现消费者与企业、产品、服务相关的情感与情绪,通过建立消费者与品牌之间的情感关联,引起消费者的情感共鸣,从而使他们对企业、产
根据国标对汽车座椅安全带固定点的要求,对汽车座椅安全带总成进行了CAD建模和CAE分析。分析结果表明:前排座椅安全带固定点可以满足国标要求,但后排座椅安全带固定点不能满
根据兴旺煤矿的矿井水水质特征,提出了具体的治理工艺,并对治理效果、工艺可行性以及矿井水处理成本进行了分析。结果表明,该工艺可有效去除矿井水中COD、SS、Fe,处理后达到
窗帘机械传动部分采用滚动螺旋形式,智能控制部分以AT89S52单片机为核心,实现了人工控制、光强控制、红外遥控和定时控制,具有较好的市场应用前景。
信息安全风险评估,就是从风险管理的角度,运用科学的方法和手段,系统地分析网络与信息系统所面临的威胁及其存在的脆弱性,评估安全事件一旦发生可能造成的危害程度,提出有针
目的应用多导睡眠呼吸检测仪检测并分析抗癫痫治疗对于睡眠相关性癫痫患儿睡眠结构的影响。方法将64例睡眠相关性癫痫患儿随机分为A组与B组,各32例。选择同期健康体检儿童32
基于Pt100铂电阻温度传感器设计的一种完整的多点温度测量系统,包括放大电路的设计以及结合LabVIEW上位机编程进行温度值的实时显示,可以实现10~90℃温度条件下的16个测点的