基于Index Server的站内搜索系统研究与应用

被引量 : 2次 | 上传用户:fibiya
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在电子商务方兴未艾的今天,企业上网不但是为了展示企业形象,提高知名度;也意味着无穷的商机与财富。而内部网Intranet则为企业带来了全新的沟通方式和管理理念。因此构建企业Web站点已经排上了许多企业信息部门的日程。Web的优点在于可以方便的展示大量信息,但同时也带来了信息的泛滥使得寻找有效信息非常困难。为此,好的企业网站都拥有强大的搜索引擎,使得网站更加友好和便利。对于有政策法规、合同定单等大量文档上网的企业网站,信息搜索的服务必不可少。Index Server是专门为企业网站设计的专业搜索引擎,利用它可以非常轻松的在网站中加入功能强大的信息搜索功能。并且Index Server搜索的文件不局限于HTML格式,还支持TXT、DOC、EXL、RTF、GIF、JPEG等多种文件格式,并可以通过插入第三方插件来支持更多的文件格式。搜索范围可以是存放在本地服务器中的内容,也可以是网络中其他机器的共享资源,包括INTERNET中的资源。搜索时除了文档中的关键字词以外,还可以就文件大小、修改日期、作者等属性进行搜索。此外Index Server还支持英文、简体中文、德语、法语、日语等语种,无须编程,就可在网站中实现多语种的搜索引擎。由于Index Server是零维护设计,故只需启动Index Server服务,搜索引擎就会自动运行。而在Web服务器端,需要加入与Index Server连接的页面。传统Index Server的工作过程由浏览器通过HTML文档的FORM表单向Web服务器发出请求开始,Web服务器通过一个类似于数据库接口的专用文件.IDQ与Index Server连接,将客户的请求转换成Index Server理解的语句。Index Server再将查询结果按照模板文件HTX定义的格式组织成HTML文档,通过Web服务器返回给浏览器。这种方式称为HTML/IDQ/HTX方式,需要三个文件配合完成查询。使用这种方式不能对查询结果进行处理,并且模板文件HTX格式单一。因此微软在Index Server 2.0中加入了对asp.net的支持,用一个ASPX文件替代先前的三个文件。由于asp.net有灵活且功能强大的脚本语言操纵,因此Web开发者可以设计条件复杂的查询,并能更加精确的处理查询结果。本文围绕站内搜索这一课题,对Index server索引技术、数据采集这两大站内搜索的核心支撑技术进行了深入细致的研究与分析,并在对google、百度、搜狗等已有站内搜索产品和市场详细调研的基础上实现了一个实时站内搜索系统。本文所做的主要工作、技术难点与创新处如下:1.大量查阅了站内搜索的相关资料,追溯了站内搜索兴起的原冈及其发展过程,认真学习了站内搜索的体系结构、架构过程及应用实施的知识,深入领会了站内搜索的概念及其核心支撑技术。2.深入细致的学习了Index Server索引的概念、特点以及Index Server系统的体系结构,并研究了数据的索引过程:过滤,字分离和规范化,并对实现索引查询的数据流程、体系结构、查询后的结果集以及将Index server索引服务器的数据库连接器做为二次开发的类库进行了详细的分析与研究,而且也从应用的角度对Index server服务器中的时间排序、精确排序做了深入的学习。3.认真学习了SQL数据库的相关知识,分析了数据库的体系结构,并重点学习了如何实现对数据库的监控和安全访问。4.深入学习Visual Studio 2003开发工具,详细的研究了Windows服务的开发模式,把Windows服务应用到Socket通信服务器端,充分利用Windows服务的优点,扬长避短,不仅大大提高了生产效率,而且明晰了系统结构,为系统稳定安全的运行提供了保障。5.深入的学习了网络通信编程技术,以及TCP/IP协议和信息包的知识,并将之用在数据采集的C/S系统中。6.基于上述原理和已有的研究成果,设计并实现了站内搜索系统,该系统具有的特点与创新如下:1)本系统中数据采集子系统采用了C/S结构,系统的所有用户可以通过Internet使用本查询系统,不受时间和地点的限制,而且系统基于web的操作方式,对于有着庞大的互联网用户数量的中国市场来说更加具有竞争力。2)实时信息查询:百度和Google等著名的搜索引擎巨头他们也提供了免费的站内搜索系统,他们也可以完成快速的站内搜索功能,但是百度或Google的站内搜索系统却不能查到网站内的最新的新闻内容或查到网站中已经不存在的信息,因为他们的网络蜘蛛不能实时的对每一个网站的内容进行数据的采集,然后进行索引。所以对于很多数据有一个延迟性。而本站内搜索系统通过对网站内的数据库进行实时监控处理,有效地采集到网站的最新信息变动,实现了实时查询。3)信息数据的生成和管理,为了能使网站的客户能查询到最新的信息,使用Window后台服务对SQL的数据库信息更新进行实时的监控,及时的把变更信息用TXT文件形式存储并添加到索引服务器中。4)采用TXT文件形式存储数据信息,Index Server支持HTML、XML等多种文件形式的索引功能,但是TXT是最稳定、高效的存储格式。目前,本系统已经在证券之星进行内部安全测试,效果良好。作者在校期间,所发表的文章见附录。
其他文献
脓毒症与非感染性全身炎性反应综合征有着相似的临床表现,早期诊断脓毒症至关重要。脓毒症诊断中常用的生化标志物C反应蛋白是非特异性炎症指标,白细胞介素6是重要的细胞因子
<正>民以食为天,国以食为安。近年来,食品安全问题引起了世界范围内的普遍关注,成为各国政府和消费者谈论的焦点,食品安全关系到人民群众的健康乃至生命,关系到我国经济的良
目的:探讨腕关节掌屈尺偏位固定治疗Colles骨折的临床疗效。方法:1998年1月至2008年6月采用腕关节掌屈尺偏位固定治疗Colles骨折120例,男52例,女68例;年龄22~90岁,平均57.6岁;
回顾近10年在临床康复治疗中应用PNF技术的研究,简要介绍PNF技术基本理论,指出以往研究中存在的不足,并对PNF疗法是否可以更广泛的应用到临床中,以及配合传统疗法是否能有效
能引起积极的情感体验、深层次的认知以及负责任的社会参与的学习方式,有利于促进学生包括法治意识在内的核心素养的提高。教师可以从四方面转变学生学习方式:参与课程开发,
经济学家一致认为货币起源于物物交换的不便,但是来自人类学和考古学的证据否定了这一假说,礼物交换才是前货币时代社会交往的主要方式。礼物逻辑强调整体性、模糊性和独特性
目的:探讨腰椎椎体后缘离断症的有效手术方法。方法:将腰椎椎体后缘离断症分为侧方型及中央型,采用椎板拉钩法的小切口手术治疗腰椎椎体后缘离断症12例,均为男性;年龄23~40岁,
古筝演奏艺术水平的提高必须根植于特定的音乐文化。古筝艺术的文化属性突出地表现在作品题材强烈的本土化,听觉上具有浓郁的中国味道。而由于各地区环境、语言、风俗习惯等
LNG(液化天然气)泄漏后产生大量的蒸汽,蒸汽的扩散受液池尺寸、泄漏区域地面类型、环境条件的影响,为了研究以上因素对LNG蒸汽扩散的影响,以方便采取事故预防措施,采用ALOHA