通用中英文专业搜索引擎技术的研究及应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:swordhero
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet应用的逐渐普及和发展,因特网上的信息资源正在呈几何级数增长。它给人们带来极丰富信息的同时也向人们提出了一个重要的研究课题,即如何从浩如烟海的信息资源中迅速而准确地检索出人们所需要的信息,Web搜索引擎因此应运而生。近年来广而不精的综合性搜索引擎已无法满足人们获取专业信息的需要,小型专业化的搜索引擎正成为未来发展的一个趋势并且将具有广泛的应用前景。 本文介绍了综合搜索引擎的基本结构和基本原理,分析了搜索引擎各部件的关键技术、工作原理、实现方法和设计原则。其中着重讨论了网络机器人(Robot)技术、中文分词技术、向量空间模型(Vector Space Model,简称VSM)技术、文本自动分类技术、Web数据索引技术和Web数据检索技术。在此基础上,对各关键技术的实现方法进行了深入的研究。在实现中,采用了多线程、特征提取及加权、相关度排序等若干技术,有效地提高了Web数据采集、分类、检索的效率和质量。 在综合搜索引擎技术的基础上,本文针对专业信息搜索的特点,通过限制搜索网站范围和自动分类过滤专业信息相结合的专业化方法设计了一个中英文专业搜索引擎。同时为了提高本搜索引擎的广泛的适用性,本文采用了通用化的设计思想,使得该引擎可以方便地构建成各种专业的专业搜索引擎。在提高分类、分词的效率和质量方面,本搜索引擎采用了下列关键技术:对用户日志进行分析来动态修正词库;定期增加已分类专业文档来动态扩充训练文档集。与传统的分词和索引技术相比,本搜索引擎通过建立首字视图和词条视图简单有效地实现了专业词汇的分词统计;通过建立文档与词条的双向索引,解决了倒排表索引建立维护困难的问题,并节省了大量存储空间。 本文采用Java为开发工具,以Oracle8i为数据库,实现了一个实用的通用中英文专业搜索引擎。经过比较充分的测试,该搜索引擎已应用于国家科技部973预研项目人类脑计划和神经信息学研究中。
其他文献
关联规则是数据挖掘中的一个比较活跃的分支,它用于发现数据库或数据仓库中潜在的、对用户感兴趣的信息。本文在分析目前关联规则挖掘算法中存在的不完善之处的基础上,提出了
PC104工业控制计算机在国内嵌入式应用领域占据了较大的市场份额。但是,国内PC104产品的核心集成电路,如处理器和芯片组等,全部依赖进口。研究开发高性能工业控制计算机系统
Petri网以其简捷、直观、潜在模拟能力强等特点被广泛用于离散事件系统的模拟和分析中。Petri网的主要特点包括:并行、不确定性、异步和分布描述能力和分析能力。活性(Livene
网格是近年来发展起来的重要信息技术,是继传统互联网、Web之后的第三次浪潮,可以称为第三代互联网应用。网格的目标是实现互联网上所有资源的互联、互通和协同工作。网格的根
  本文对产品设计中的分形理论及其应用进行了研究。文章论述了分形的数学基础,包括分形的定义、维数、分形的基本原理、典型分形集的分析,分析了分形的基本方法,L系统和迭代
信息安全所面临的危险已经渗透于社会经济、军事技术、国家安全、知识产权、商业秘密乃至个人隐私等各个方面。网络安全是计算机网络及其应用领域中一直在研究的关键问题。然
本文对基于P2P网络的匿名通讯技术的实现进行了研究。文章在设计和实现TreeMix系统的过程中具体做了如下几个方面的工作:1.采用基于非结构化的P2P网络拓扑结构,提高匿名系统网
远程即时支持系统是一种基于C/S模式的远程客户服务平台。其主要功能是通过互联网建立起任意PC机之间的连接,实时传递远端PC上的动态图像信息,并配以远程控制、文件传输、聊天等
视频点播系统是一种针对用户需求,向其提供交互式视频服务的系统。当大量用户提出请求,以及需要存储众多视频文件等情况发生时,视频点播系统就会面临存储空间容量、硬盘I/O、处理
随着Internet应用的飞速发展,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确