基于压缩原理的全文检索方法的研究

来源 :延边大学 | 被引量 : 0次 | 上传用户:haideliliang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本信息数量的飞速增长给传统的信息检索技术带来了新的挑战。我们可获取的大部分信息是存在于文本数据中的。从大量的信息中有效地获取有用信息要比获取数据本身更为重要。在全文信息检索系统中,如何度量文本之间相似程度是决定系统性能的关键因素之一。在传统的方法中把文本表示成欧式空间中的向量,并采用文本向量之间的夹角余弦值表示文本相似度。 本文在分析总结前人研究成果的基础上提出了一种利用压缩原理计算中文文本之间相似度的方法以及与此对应的检索方法。在没有明确的关键字,只凭隐含的统计规律进行检索时,基于压缩原理的相似度计算方法表现出独有的优越性。与传统检索方法相比,本文提出的方法能够刻画隐含统计特征,处理方法简洁,是一种不依赖于关键词的方法。 在此基础上通过聚类与基于遗传算法的检索进行了全文检索实验。结果表明本文提出的方法具有合理性和有效性。
其他文献
随着科学技术的发展,具有动态自组织,低功耗等特性的无线通信技术逐渐取代了有线通信技术,在生活生产中的应用范围越来越广泛。ZigBee协议是当前无线传感器网络普遍采用的通
本论文课题以“辽河流域水环境管理技术综合示范”项目为依托,报表服务是辽河流域水环境相关管理系统中核心业务需求之一。随着报表服务需求多样化的不断扩大,现有报表开发方
分布式计算是把一个需要进行大量计算的工程任务分割成许多小规模的任务模块,分配给网络中的多台计算机分别计算,由网络中的各个计算节点进行任务模块间的相互通信,协同完成
目前,企业计算领域正在出现一种新的研究热点,就是云计算。这种计算模式允许用户根据自己的需要获取计算资源。从而当大量的请求突然到来时,企业能够良好地处理并且做到按需