信息检索系统的算法库研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:dafuxuan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着万维网的发展,越来越多的人开始以网络进行生活、工作和学习.信息检索已经构成网络的一个不可或缺的因素.在进行信息检索时,用户希望能够检索出所有感兴趣的信息,这就需要滤掉不相关的信息,从而获得最有价值的信息.在这种情形下,Web数据挖掘应运而生.而挖掘算法种类繁多,每种算法都有其适用的情形.如何选择合适的算法进行数据处理成为人们面临的问题. 本文针对上述问题及挖掘算法应用的普遍性,构建了算法库系统.该系统旨在为信息检索提供算法支持.我们给出了算法调用和管理的框架.通过映像和元对象协议实现算法库的核心功能和系统控制功能的分离.这样,可以通过添加新的元对象来引入新的调用机制,而基本算法保持稳定.从而使系统具有良好的扩展性. 在算法的选取中,考虑项目所要处理的数据特点,针对当前XML文档结构聚类算法的一些不足,提出采用段匹配的概念来计算两棵XML文档树中的路径相似性.在整个聚类过程中,算法还把一组相关文档与一个XML聚类代表相关联,并给出了聚类代表的计算方法.进而,通过比较聚类代表,发现新的聚类时更新聚类代表来完成文档的聚类. 在上述工作的基础上,设计和开发了一个图形界面化算法库原型体统来实现算法的示例调用和管理.
其他文献
嵌入式远程视频监控系统以其集成度高、体积小、成本低、速度快、可靠性强及稳定性高等特点得到越来越广泛的应用,是监控领域新的研究热点。 在分析新一代远程视频监控系统
随着计算机技术的发展,尤其是网络技术的飞速发展,仿真系统的规模变得越来越大,对可操作性、重用性和可扩展性要求越来越高,特别是对仿真系统的性能和效率提出了更高的要求。
在科技高速发展的今天,C语言由于其自身的优势已经成为最主流的程序设计语言之一,被广泛应用于各个领域的软件实现中。然而C语言中的数组越界问题和除数为零问题屡见不鲜,这
  本文对嵌入式浏览器的开发进行了分析和设计,分别就嵌入式系统以及嵌入式浏览器的总体结构进行了详细的介绍,对嵌入式平台下的各种GUI图形库进行了阐述,并选择了FLTK这一GUI
随着宽带网络技术和多媒体技术的飞速发展,人们对计算机网络提出了以多媒体通信为主的集成服务要求。而互连网是为非实时性数据传输设计的,采用TCP/IP协议的主要目的是为了优化
随着信息化社会的来临,北京的网民对互联网业务的需求量大规模增长。到2005年2月,中国网通(集团)有限公司北京市分公司(以下简称北京网通)已有6.6万宽带以太网用户,112万ADSL用
本文对分布式信息资源管理系统的实现进行了研究。文章首先系统地研究了目前对于“信息孤岛”问题的解决方法,然后分析与综合了各种数据库技术、数据表示方法和通信手段,提出了
随着经济全球化的趋势不断加强,跨企业项目管理组织作为提升企业竞争能力的全新企业组织模式,成为新一代企业的发展热点。如何在这种庞大复杂的临时性跨企业组织结构中为大型项
多用户协同计算概念的提出将从根本上改变人们对“计算”的看法,因为它提供的是与以往根本不同的计算方式。多用户协同计算的一个具体实现就是网格系统。网格概念的核心就是
NHDB是本课题组研制的一个关系数据库管理系统,查询语言是SQL的一个子集。基于NHDB实现了一个移动数据库-Mobile NHDB的原型系统。Mobile NHDB在局域网上模拟了移动数据库的