论文部分内容阅读
随着Internet的普及和信息技术的快速发展,每天都有大量的信息如潮水般涌入互联网浩如烟海的信息使我们越来越无所适从,不知道哪些信息才是我们所需要的由于网络上的信息多数是以文本的形式存在的,因此文本的有效处理是我们从互联网上获取信息的重要前提自动分类文本聚类自动摘要等技术是现在文本处理的主要手段,它们在文本分析和人们的信息获取中发挥了极大的作用但是由于这些方法大多是建立在向量空间模型和统计的方法基础之上的,文本中的语义信息总是存在一定的损失,不能完整的体现原文的含义,一定程度上影响了摘要和聚类等处理结果的精度从文本作者的角度来看,段落句子在文本中的位置,以及一些特定的语句的顺序和关系,也是文本所要表达的内容的一部分,是读者理解文本的重要的角色因此要实现文本在语义上的完整理解,必须要对文本在结构上进行详细的分析修辞结构理论(RST)是一套关于自然语篇结构描写的理论,被广泛地应用于各种类型文本的分析本文对修辞结构理论进行了研究,并将其应用于中文文本结构的自动分析中首先从汉语语篇的结构特点入手,分析了修辞结构理论在描述中文文本结构中的作用,构建出了用于修辞结构分析的修辞分析词典然后利用该词典,设计实现了一个构建中文文本修辞结构树的分析算法,为后续的自动文摘等方面的研究打下了良好的基础本课题的研究主要包括以下的内容:第一,深入理解修辞结构理论的基本术语基本假设和核心概念,结合汉语语篇的结构特点,分析修辞结构理论在描述中文文本结构中的作用,为进一步的研究提供理论支撑第二,通过对语料进行初步分析确定本研究使用的修辞关系集合,对连词的词频进行统计后选出高频的连词,并获得每个连词的具体用法,建立修辞分析词典在此过程中,尽可能的考虑连词在连接语段构成句子过程中起作用的各种因素,精心设计词典的结构特别地,在词典中加入搭配词字段,使分析准确率获得了很大程度的提升另外将词典构建为xml格式的文件也便于进行学术交流第三,利用建立好的修辞分析词典编写修辞分析算法,从段落和句子两个层次对文本建立修辞结构树综合考虑了标点符号和连词在文本中的连接作用,充分利用搭配词来考虑小句之间的关系,并制定了一定的规则对修辞结构进行排歧,最终的目标是构成没有歧义的完整的修辞结构树在编写算法的过程中,注意了程序的复用,两个层次的算法有些是共用的同时也考虑了算法的可扩展性,程序很容易增加其他模块而只需要修改少量代码,便于以后对程序进一步扩充