基于压缩原理的全文检索方法的研究

来源 :延边大学 | 被引量 : 0次 | 上传用户：haideliliang

【摘要】

：

文本信息数量的飞速增长给传统的信息检索技术带来了新的挑战。我们可获取的大部分信息是存在于文本数据中的。从大量的信息中有效地获取有用信息要比获取数据本身更为重要。

【作者】

：

廉雄杰

【机构】

：

延边大学

【出处】

：

延边大学

【发表日期】

：

2004年期

【关键词】

：

全文信息检索数据压缩相似度聚类检索遗传算法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本信息数量的飞速增长给传统的信息检索技术带来了新的挑战。我们可获取的大部分信息是存在于文本数据中的。从大量的信息中有效地获取有用信息要比获取数据本身更为重要。在全文信息检索系统中，如何度量文本之间相似程度是决定系统性能的关键因素之一。在传统的方法中把文本表示成欧式空间中的向量，并采用文本向量之间的夹角余弦值表示文本相似度。本文在分析总结前人研究成果的基础上提出了一种利用压缩原理计算中文文本之间相似度的方法以及与此对应的检索方法。在没有明确的关键字，只凭隐含的统计规律进行检索时，基于压缩原理的相似度计算方法表现出独有的优越性。与传统检索方法相比，本文提出的方法能够刻画隐含统计特征，处理方法简洁，是一种不依赖于关键词的方法。在此基础上通过聚类与基于遗传算法的检索进行了全文检索实验。结果表明本文提出的方法具有合理性和有效性。

其他文献

面向无线多媒体传感器网络Zigbee协议栈的分析与优化

随着科学技术的发展,具有动态自组织,低功耗等特性的无线通信技术逐渐取代了有线通信技术,在生活生产中的应用范围越来越广泛。ZigBee协议是当前无线传感器网络普遍采用的通

学位

无线多媒体传感器网络Zigbee协议栈能量管理网络维护多媒体数据传输

报表管理系统中服务器的设计与实现

本论文课题以“辽河流域水环境管理技术综合示范”项目为依托,报表服务是辽河流域水环境相关管理系统中核心业务需求之一。随着报表服务需求多样化的不断扩大,现有报表开发方

学位

SOA报表管理系统报表服务服务模型

基于JXTA的P2P模式分布式计算的研究

分布式计算是把一个需要进行大量计算的工程任务分割成许多小规模的任务模块,分配给网络中的多台计算机分别计算,由网络中的各个计算节点进行任务模块间的相互通信,协同完成

学位

分布式计算分布式计算P2P模式P2P模式JXTAJXTASUBTASK令牌SUBTASK令牌

基于OpenStack的业务云平台的动态可伸缩性研究与实现

目前,企业计算领域正在出现一种新的研究热点,就是云计算。这种计算模式允许用户根据自己的需要获取计算资源。从而当大量的请求突然到来时,企业能够良好地处理并且做到按需

学位

云计算OpenStack动态可伸缩自动扩展QoS

基于压缩原理的全文检索方法的研究

其他学术论文