互关联后继树模型研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户：qqifha

【摘要】

：

随着人类进入"信息社会"时代步伐的加快,信息的海量化和多样化使得人们必须寻求一种能够处理大规模文本数据的技术,全文检索应运而生.从1959年在美国Pittsburgh大学诞生到现

【作者】

：

申展

【机构】

：

复旦大学

【出处】

：

复旦大学

【发表日期】

：

2004年期

【关键词】

：

全文检索互关联后继树模型精简互关联后继树模型数据挖掘

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着人类进入"信息社会"时代步伐的加快,信息的海量化和多样化使得人们必须寻求一种能够处理大规模文本数据的技术,全文检索应运而生.从1959年在美国Pittsburgh大学诞生到现在,全文检索技术已经在企业信息门户、媒体网站、政府网站、数字图书馆、搜索引擎及商业网站等各领域有了广泛的应用.该文在分析国内外各种主流全文检索模型的基础上提出了一种针对中文的全文检索模型:互关联后继树模型.对单文本互关联后继树模型,多文本互关联后继树模型以及互关联后继树模型在数据挖掘领域的应用做了一定的研究.该文所做的工作和取得的创新成果体现在以下几个方面: 1)提出了一个针对中文的全文检索模型.互关联后继树模型将全文看成一个字符流,利用由多棵二层树组成的森林表示这个全文字符流.与其他模型相比此模型具有创建查询速度快,膨胀比小,可以进行原文生成,可以直接查询任意长度的字符串等特点.该文还对互关联后继树模型从空间角度进行改进,得到了精简互关联后继树模型.在精简模型的创建算法中,我们用两遍扫描算法代替反填算法,从而大大提高了创建速度.实验表明:互关联后继树模型比目前广泛使用的倒排表模型具有更好的性能.2)解决了模型的匹配文章查询问题.将全文看成一个字符流的缺点是检索到某个匹配后无法及时找到该匹配所在文本.针对互关联后继树模型的特点,该文提出了两种迅速查找匹配文本的方法.一种方法将文本分段,在查询到某个匹配后,原文生成到段落末尾获取该段落所在文章号;另一种方法在互关联后继树的每个分支中直接添加文章号信息.实验证明:这两种方法都是十分有效的.3)提出了评价全文检索模型的标准.目前,国内外还没有一套通用的评价全文检索模型的标准.该文提出了一套客观标准,并首次对国内外的各种主流模型进行了全面的分析评价.4)拓展了互关联后继树模型的应用.该文将互关联后继树模型用于文本挖掘领域,提出了基于互关联后继树模型的文本挖掘算法,首次将文本检索的两大技术——全文检索和文本挖掘——合二为一.由于此挖掘算法不必生成后选频繁模式,因而具有较高的效率.另外,我们还将基于互关联后继树模型的挖掘算法扩展,应用于时间序列频繁模式挖掘中,也具有良好效果.5)提出了基于互关联后继树模型的全文检索系统框架.该文提出的全文检索查询系统框架,由于使用了互关联后继树模型,具有比较完备的查询能力.

其他文献

基于USB接口的计算机信息采集系统的研究与设计

本文以USB(Universal Serial Bus)接口的数据采集系统的研制过程为主要内容,阐述了利用Philips公司的PDIUSBD12芯片与ATMEL的AT89C52单片机实现USB接口的设计方案、开发方法

学位

USB固件PDIUSBD12驱动程序WDMDriverStudio

一种基于JTAG的处理器调试软件架构的设计与实现

随着集成电路技术以及芯片制造工艺的高速发展，在CPU内部嵌入调试功能模块的片上调试技术(On-hip Debugging)应用越来越广泛。在进行SoC芯片的系统开发时，对SoC芯片的调试直接

学位

集成电路联合测试工作组片上调试软件架构

构件系统回归测试模型与技术研究

构件软件在其生命周期中会经历多次演化，在演化过程中会对构件系统进行修改。要验证修改的正确性和新系统的可靠性，就必须对构件系统重新执行测试。构件系统回归测试只需要测试

学位

构件测试回归测试构件依赖依赖性分析波动分析测试用例选择测试用例约简

XML在数据交换系统中的应用研究

随着企业合作和管理信息化的发展,许多信息系统要访问异构数据库,这些数据库的异构性体现在数据库类型的不同、数据库结构不同或者数据类型的不匹配。而可扩展的标记语言由于

学位

XML数据交换异构数据库模式映射

基于主动形状模型(ASM)的医学图像分割

肾脏和前列腺都是人体的重要器官，近年来肾脏疾病和前列腺疾病对人类健康造成了很大威胁。在肾脏疾病诊断中，医生经常使用CT机来对肾脏的病情进行观察，CTA(ComputedTomographic

学位

医学图像分割Gabor滤波主动形状模型前列腺轮廓点

潜在语义分类模型的研究

文本自动分类是组织和管理文本信息的有力手段,可以在较大程度上解决信息杂乱无章的问题,使用户更容易更准确地定位所需的信息。目前,文本自动分类是信息检索(Information Re

学位

文本分类潜在语义索引潜在语义分类偏最小二乘回归

基于OGSA的网格服务及应用的研究

随着人们对信息的各种需求急剧增加,网格计算迅速发展起来,并被认为是信息技术发展的下一波大浪潮。利用网格技术能够实现各种资源的全面共享与连通。目前,Web服务技术和网格

学位

OGSAWeb服务网格服务SOAGT

小波域滤线器伪影去除方法

X射线成像是医学诊断中重要的成像手段。成像系统中原始的X射线束穿过人体时会发生散射，这些散射线到达探测器后严重影响成像质量。在探测器前放置滤线栅是防止散射影响图像的

学位

滤线栅伪影小波变换递归算法图像数据去除方法

基于NP架构的UTM一体化网关设计与实现

随着网络应用的发展,企业面临的安全威胁不仅仅来自于网络层,更多的是应用层的威胁,如病毒、垃圾邮件、不良Web内容等。网络安全的需求也在发生变化,用户需要能够防御混合型

学位

UTM安全网关NP防火墙VPN

NBOS_S流量识别模块的改进

在网络规模不断扩大、网络应用日益繁多、网络安全隐患大幅增加的背景下，网络管理被上升到计算机网络中一个不可或缺的层面。网络流量识别是网络管理所需用到的技术中的一项，通

学位

NBOS_S系统流量识别模块化设计对称不确定性高斯核函数

互关联后继树模型研究

其他学术论文