化工专业搜索引擎系统架构设计与实现

来源 :北京化工大学 | 被引量 : 3次 | 上传用户:dancingbug
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,Google等综合型搜索引擎系统已经取得了极大的成功,但是,当使用综合型搜索引擎来检索专业内容时,往往找不到专家们需要的内容。因此,有必要开发专业搜索引擎系统宋满足领域专家的要求。 该文研究并实现了化工专业搜索引擎系统。为了实现该专业搜索引擎系统,该文引入了综合型搜索引擎系统的架构模型,即网络蜘蛛、索引器和检索器,并且在该模型中增加了文件处理模块,专门用于转换网页文件为纯文本文件。该搜索引擎系统基于全文索引引擎Apache Lucene构建。在设计和开发的过程中,严格按照软件工程代码重用的要求重用了Lucene的大量源码,并在此基础上做了改进和扩充。该文介绍了文件处理器、检索器、公用模块等模块的设计和实现方法以及系统集成方案,重点讨论了文件处理器的程序逻辑以及检索器中摘要生成器和输出渲染器的算法。最后,该文介绍了系统的部署和运行方式,并且展示了文件处理器和检索器的程序运行结果。 该化工专业搜索引擎系统经过了单元测试和集成测试,已经可以稳定的运行。不久,该搜索引擎系统就会正式推出,相信能够给化工领域专家提供大量帮助。
其他文献
互联网技术和移动通信技术的迅猛发展和相互逐步融合,已使“IP协议将成为统一的网络平台”成为业界的共识。人们渴望通过自己手中的移动终端设备接入互联网络,并且享受像固定
本课题来源于大庆采油一厂电能量智能监控及计费系统。该系统基于GPRS数据传输技术,它是电力部门进行电量实时传输,智能监控,进行电量、线损、网损计量和统计分析,以及电费核算的自动化工具。从应用目的,采集数据,功能指标等各方面来看,它都有别于传统的SCADA系统和MIS系统。 本论文以大庆采油一厂为研究对象,详细讨论了系统开发中所使用的技术:GPRS、面向对象技术、数据库技术;并且探讨了系统开发
智能计算机辅助教学(Intelligent Computer Assisted Instruction,简称ICAI)以认知学和思维科学为理论基础,通过研究人类学习思维的特征和过程,将人工智能技术应用于计算机辅
随着全球经济一体化和计算机网络的发展,需要处理的印刷英文材料也在不断增长,传统的键盘输入已经远远不能满足需要,如何解决大批量文字资料的输入成为模式识别领域一个急需解决
中文分词技术属于自然语言处理技术范畴,它是中文信息处理中的一个主要组成部分,是中文语言理解、文献检索、机械翻译以及语言合成系统中最基本的一部分。对于中文搜索引擎,
Web数据库技术属于当前研究热点,是Internet技术与数据库技术的共同发展方向,也是Internet应用研究的关键。如何在Web上发布数据库、实现访问,已成为具有理论研究和实际应用
Web挖掘是数据挖掘的一个重要的研究方向。Web挖掘突破传统意义上的数据格式的限制,随着Web的发展,它会变得越来越重要,成为web用户更好的获得信息的一个有效的途径。 如
汉字是世界上唯一未曾中断使用而延续至今的表意文字系统。汉字的本体是汉字构形,包括汉字字形结构和组成方式。汉字本体的研究必须以汉字字形为核心,在个体考证的基础上研究
设计是人类为了实现某种特定的目的而进行的一项创造性活动,是人类得以生存和发展的最基本的活动,它包含于一切人造物品的形成过程之中。设计的最初目的是为了满足人类生存和
万家寨引黄入晋工程是一项跨流域的大型引水工程,该工程所处地域地形复杂,规模宏大,这种大流量、长管道、高扬程、级间串联、泵站内多台机组并联的复杂泵系统在国内尚属首次