论文部分内容阅读
随着人类进入"信息社会"时代步伐的加快,信息的海量化和多样化使得人们必须寻求一种能够处理大规模文本数据的技术,全文检索应运而生.从1959年在美国Pittsburgh大学诞生到现在,全文检索技术已经在企业信息门户、媒体网站、政府网站、数字图书馆、搜索引擎及商业网站等各领域有了广泛的应用.该文在分析国内外各种主流全文检索模型的基础上提出了一种针对中文的全文检索模型:互关联后继树模型.对单文本互关联后继树模型,多文本互关联后继树模型以及互关联后继树模型在数据挖掘领域的应用做了一定的研究.该文所做的工作和取得的创新成果体现在以下几个方面: 1)提出了一个针对中文的全文检索模型.互关联后继树模型将全文看成一个字符流,利用由多棵二层树组成的森林表示这个全文字符流.与其他模型相比此模型具有创建查询速度快,膨胀比小,可以进行原文生成,可以直接查询任意长度的字符串等特点.该文还对互关联后继树模型从空间角度进行改进,得到了精简互关联后继树模型.在精简模型的创建算法中,我们用两遍扫描算法代替反填算法,从而大大提高了创建速度.实验表明:互关联后继树模型比目前广泛使用的倒排表模型具有更好的性能.2)解决了模型的匹配文章查询问题.将全文看成一个字符流的缺点是检索到某个匹配后无法及时找到该匹配所在文本.针对互关联后继树模型的特点,该文提出了两种迅速查找匹配文本的方法.一种方法将文本分段,在查询到某个匹配后,原文生成到段落末尾获取该段落所在文章号;另一种方法在互关联后继树的每个分支中直接添加文章号信息.实验证明:这两种方法都是十分有效的.3)提出了评价全文检索模型的标准.目前,国内外还没有一套通用的评价全文检索模型的标准.该文提出了一套客观标准,并首次对国内外的各种主流模型进行了全面的分析评价.4)拓展了互关联后继树模型的应用.该文将互关联后继树模型用于文本挖掘领域,提出了基于互关联后继树模型的文本挖掘算法,首次将文本检索的两大技术——全文检索和文本挖掘——合二为一.由于此挖掘算法不必生成后选频繁模式,因而具有较高的效率.另外,我们还将基于互关联后继树模型的挖掘算法扩展,应用于时间序列频繁模式挖掘中,也具有良好效果.5)提出了基于互关联后继树模型的全文检索系统框架.该文提出的全文检索查询系统框架,由于使用了互关联后继树模型,具有比较完备的查询能力.