论文部分内容阅读
在当今信息时代,网络成为人们获取信息的主要手段,信息检索一般通过搜索引擎进行。用户查询中词语复合结构占了相当一部分,但是目前的搜索引擎处理大多基于关键字,用户的查询被视作离散的字符串集,因此原本完整的复合结构被打碎成孤立的单词,用户的需求也被割裂,从而导致准确率的下降。这是本文的应用背景及研究起始点。另一方面,在自然语言处理中复合结构也普遍出现,因此寻找适合对复合结构进行语义解释的理论和方法具有重要的理论研究意义和广阔的应用价值。问题的瓶颈首先不在于提高算法的效率上,关注点在于如何完整地分析复合结构所表征的概念。因此重要的起始是探索如何用概念分析的方法标引复合结构。本文研究汉语名词-名词型复合结构的概念分析及其概念图标引。复合结构是由两个或两个以上的名词性概念直接组合而成,语义分析的要旨在于刻画其子成分间的关联语义关系。本文的研究从实例分析出发,尝试在内涵逻辑模型下用概念图标引复合结构子成分之间的关联语义关系,探索复合结构中概念耦合的内在特点。本文研究利用网络和语料库作为资源,从中抽取上下文构建模板,使用基于模板的聚类分析方法对复合结构进行语义解释。本文的贡献主要如下:1.复合结构语义解释的基础在于对复合结构本身的研究与分析,本文分析了复合结构的实例,并对复合结构的子成分——基本词汇与复合结构进行概念分析,总结了概念分析一些原则性的要点,探讨了求解关联语义关系的方法。2.尝试了从网络和语料库中抽取上下文和构建模板的方法。通过该方法能自动化地对复合结构抽取表示其关联语义关系的模板,以这些模板构建向量空间模型,可以对复合结构的关联语义关系进行表示。3.尝试了对复合结构关联语义关系的相似度进行计算,由此探索了按照关联语义关系对复合结构进行聚类分析的方法。当复合结构按关联语义关系分簇之后,复合结构的分析可以按簇进行,而不用对复合结构逐个标引,这将大大降低人力的消耗。本文的研究朝着对复合结构进行有效的概念分析的目标作了有益的探索和尝试,旨在为中文信息处理及其检索应用提供一点新的思路。