校园网搜索引擎重构

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:huanghui0123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术和网络技术的不断发展,校园网作为学校内部信息共享、校际间信息交流的平台也得到了快速发展。校园网上信息量的增加,以及信息的分布存储,给用户检索信息带来了困难。导致校园网上大量资源得不到充分利用,造成了信息资源的浪费。校园网搜索引擎是一个对校园网内部信息资源进行搜集整理,然后供用户查询的系统。它主要包含四项核心技术,搜索器技术、中文分词技术、索引技术和检索技术。 本课题是在已有校园网搜索引擎的基础上,针对旧版本校园网搜索引擎出现的问题,对其进行的重构。旧版本的主要问题如下:搜索器方面,对网页的解析不够完备导致的搜全率过低,校园网中大量存在的异构文本(WORD文档)未能实现抓取等问题;检索器方面,检索结果的网页只能简单的输出而没有考虑排序等。因此,新版本重新设计了搜索器和检索器子系统,搜索器能够较好的完成自动对网页的抓取和解析,并实现了对异构文本的获取;检索器方面设计了新的相关度算法。算法基于TF/IDF思想,并添加了页面版式和网页层次等多种因素。在网页排序时能较准确的反映网页权值,将检索结果排序后输出;索引方面,为了适应新的网页排序算法,重新设计了索引的结构。
其他文献
事件驱动软件是当今软件的主流。其中GUI软件和WEB软件应用最为广泛。关于它们的软件测试一直是研究的热点。由于测试集庞大以及测试成本的限制,GUI软件和WEB软件的测试一直
大规模的网络部署、自组织的组网方式、能量有限的网络节点、动态变化的无线信道以及各种类型的流量模型和数据收集方式是传感器网络的固有特性。这些特性在实现网络功能的同
语言是人类最重要的交流工具,语音信号作为语言载体在不同的层面包含了大量的信息。其中与说话人相关的信息可以辨认说话人是谁或者确认此说话人是否为某特定的人。如今自动说
按键控制播放器系统是一个典型的手持设备产品,它通过外部按键来控制音频播放,以达到用户交互功能。   本文主要以ARM9处理器为目标平台,深入分析ARM公司提供的相关资料,介绍
关联规则是数据挖掘中比较活跃的研究方向之一,它反映了大量数据中项目之间有趣的关联或联系,一个比较经典例子就是“90%的客户在购买面包和黄油的同时也购买了牛奶”,数据库中的
对等网(Peer to peer,P2P)按照资源组织与定位方法可以将其简单地分为非结构化P2P网络和结构化P2P网络。在非结构化P2P系统中,查询采用泛洪搜索的方式。这种方法为了满足查询要
随着计算机和网络的日益普及,有关系统或网络的安全问题也日益突出。入侵检测系统是对传统计算机安全机制的一种补充,增大了对系统与网络安全的保护范围。支持向量机(SVM)是一
无线移动自组织网络是独立的网络自治系统,不依赖于固定主干网络,可提供有效的数据和多媒体通信服务。它使用无线通信技术,所有主机均可以移动。众所周知,无线系统是带宽受限系统
在线考试系统的应用越来越广泛,但是考试现场监控仍然以人工监控为主,浪费了大量的人力资源且影响考试公平性。针对这个问题,我们设计了利用低成本的PC摄像头和简单图像处理
随着信息技术的发展,信息化渗透到了各行各业。病毒学领域的数据规模庞大、纷繁复杂,而如何有效地对实验结果、实验数据进行有效存储、整合以及分析一直是困扰着实验人员的难