基于Lucene的站内搜索引擎的设计与开发

来源 :华东理工大学 | 被引量 : 0次 | 上传用户:kmweiran
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在了解搜索引擎历史及分类、研究搜索引擎原理的基础上,对搜索引擎的工作流程和组成部件做了详细解剖。在此基础上,通过对通用搜索引擎与站内搜索引擎从特点及实现原理上深入的比较,突显了站内搜索引擎的优势。本文也比较了站内全文搜索与关系数据库搜索的优缺点,总结出利用全文检索引擎是实现站内全文搜索是最佳选择。Lucene是一款架构优良便于二次开发的全文搜索软件包,本文对其进行了详细介绍包括数据结构、核心技术及二次开发实现方法等。本文详细描述了上海能源化工技术转移平台站内搜索引擎的设计过程,从开发流程到具体的关键问题:格式预处理、数据库全文索引建立、中文分词、指定域检索、按特定域进行结果排序等均有详细描述。最后展望了站内搜索引擎的进一步功能提升的发展方向:分词词典定制化、查询方式多样化、智能化。
其他文献
为了解决半监督聚类先验知识少、聚类偏差大的问题,提出了基于成对约束的主动半监督聚类算法。引入主动学习算法,增加约束集的信息量以使聚类效果更好;利用该约束集建立投影
电影《霸王别姬》通过京剧艺人的经历,展现了中国现当代历史,并试图探讨历史的变更对京剧艺术地位的影响。电影再现了历史变更时代京剧艺人的生活。叙述学是对于文化的透视。
目的:探讨足浴加足部按摩应用于剖宫产术后预防腹胀的效果。方法:选择剖宫产术后产妇60例,按手术顺序随机分为试验组和对照组。试验组除常规护理外,于术后第1天开始实施足浴加足
为有效解决工程总承包模式下电力部门投标报价中遇到的瓶颈,设计一个快速报价专家系统。对工程总承包模式做了简要介绍并分析了快速报价的必要性以及快速报价的难点;在此基础上
偏最小二乘回归(PLS)自带的铲椭圆图辅助分析方法具有一定的“噪音”识别能力,但无法分析多维空间中的“噪音”。在此基础上,提出将SBM算法引入到偏最小二乘辅助分析中,优化偏最小
针对复杂高速网络环境风险评估面临的性能瓶颈以及实时准确性低的问题,提出了多核构架的网络风险评估模型。该模型利用多核网络处理平台资源,提出了高速并行处理网络流量构架和
韩城市在“三个代表”学习教育活动整改提高阶段,针对排查出的突出问题,实行了“限时办事、误事追究”制度,并取得了实效。各单位必须明确处理每个问题的具体责任人,实行责任包干