基于Lucene.net的站内搜索引擎设计与实现

来源 :华南理工大学 | 被引量 : 0次 | 上传用户:hbffff
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前互联网快速发展,各类网络应用快速增加,网络信息呈爆炸性增长。为提高生产效率和生活便利,使信息传播更加快捷,需要一款信息检索工具快速定位用户感兴趣的信息。诚然,当前网络上已经有很多门户网站和像百度、必应等的搜索引擎帮助人们检索信息,但这并不能完全满足用户的日常需求。特别是对于某些局域网、校园网、大型企业园区。这些组织涉及部门多、信息量大、信息私密性高,并且信息的发布往往缺乏一个统一管理,所以他们更需要一个好的信息搜索切入口,当站内信息随着时间积累增多,员工、学生或外来访问者便需要在网站中逐页寻找相关信息或者文件,造成极大不变。因此在本次论文中,本人针对这个具体问题进行了阐述,并提出解决方案。本文主要是研究并设计开发一个针对单位内部的站内搜索引擎,主要针对处于封闭或半封闭的网站群。从零开始介绍搜索引擎的基本架构及其中的关键技术,如爬虫的原理与实现,如何构建索引目录,分词技术的主要方法、搜索排序模型的构建等,接着使用C#语言,并结合关系数据库技术、搜索引擎框架Lucene.net、前端页面技术构建一个完整的站内搜索引擎。开发的内容主要包含两大模块,一个是数据采集模块,主要包含网络爬虫、信息清洗、数据入库、索引构建等功能。另一个是搜索模块,利用数据采集模块建立的索引实现搜索功能,并加入搜索缓存以及敏感词过滤等功能。整个开发流程将按照软件工程开发的要求进行,首先进行需求分析,按照UML标准,使用大量图表的形式介绍模块功能,然后逐步编码实现整个系统,并在文章最后对系统进行测试。
其他文献
为构建H7N9亚型禽流感病毒反向遗传操作系统,本研究选取H7N9禽流感病毒A/Chicken/Shanghai/S1053/2013(CK/53)为亲本毒株,构建了H7N9亚型禽流感病毒的八质粒反向遗传操作系统
第一章 总则$$第一条 为了规范投资的确认、计量和相关信息的披露,根据《政府会计准则——基本准则》,制定本准则。$$第二条 本准则所称投资,是指政府会计主体按规定以货币资金
报纸
一、拉康的精神分析理论简述法国精神科医生拉康是弗洛伊德与索绪尔的继承者,同时也是超越者,其反叛正在于他将结构主义的理论运用在了精神分析学上,提出了镜像阶段论、象征
丙型肝炎(HCV)感染是一个全球性健康问题,全球范围共有7100万人感染了HCV。80%的患者急性感染后转化为潜伏感染,随着时间的推移,逐渐转变为肝硬化和肝癌。目前,HCV是唯一一种疫
目的:探讨声触诊组织成像量化(virtual touch imaging quantification,VTIQ)技术在冈上肌腱损伤诊断中的应用价值。方法:收集2018年10月-2019年7月间80例因单侧冈上肌腱(supr
在《关于1965年查戈斯群岛从毛里求斯分离的法律后果的咨询意见》中,由于该岛在英国和毛里求斯共和国之间存在着悬而未决的争端,导致国际法院的咨询管辖权受到了质疑。本文将以“查戈斯群岛意见案”为引,探究国际法院咨询管辖权的权利来源及效力,分析国际法院如何行使咨询管辖权,以及从该案中引发的关于法院咨询管辖权与人民自决权的关系。其结论是要使咨询意见具有独立于大会和安全理事会的政治执行机制之外的力量,它就必
<正>1农村小规模学校以QQ群为平台跨校集体备课的必要性众所周知,QQ是时下非常实用的一款社交软件,QQ群也已经成为大众相互交流,相互沟通的重要载体。在各行各业,只要人们有
目的探讨结直肠癌组织KRAS、BRAF基因突变情况及其临床意义。方法选择行手术治疗的结直肠癌患者262例,采用ARMS-PCR法检测其结直肠癌组织KRAS基因外显子2第12、13位密码子及B
本文对如何利用主题途径检索文献和利用主题途径检索文献经常遇到的问题进行了全面而深入的剖析。
<正>聘用制护士成为医院护理队伍的主要来源,她们的存在缓解了临床护士紧缺的局面,保障了护理工作的有效实施以及医院工作的正常运转。但由于待遇低、发展空间受限、求职渠道