论文部分内容阅读
当今计算语言学界语义处理方兴未艾,中文信息处理的深度也在不断增加,研究内容从词法到句法,到语义,再到语用。但是,中文在句法处理阶段就遇到了很大的困难。究其原因,是因为中文缺乏形态变化,词类和句法成分没有严格的对应关系,所以并不适合印欧语系的句法理论。中文的特点是以名词为中心,表现形式是概念的直接耦合。因此,对于中文的处理可以淡化句法,注重概念。本文通过对概念内涵结构的分析,认为属性是用以表达概念内涵的至关重要的基本单位,并采用概念图的形式来表示语义。本文研究从手工标引实例出发,总结了概念图标引的方法和步骤。在此基础上,本文探索了词汇语义相似度计算,属性的自动获取,以及概念图模型在检索中的应用。具体来讲,本文的创新性工作有以下几个方面:一、提出了一种基于概念内涵结构形式的概念图表示方法,用以描述汉语语义,并总结了手工标引概念图的方法和步骤。这种表示方法可以用在检索系统中,对用户查询和文档进行标引,克服了传统布尔模型和向量模型会割裂语义完整性的缺点。这是全文工作的前提和基础。二、提出了两种计算词汇语义相似度的方法,这是语义计算的基础工作之一。第一种方法基于大规模语料库,统计词语的上下文规律,作为相似度计算的依据。这种方法利用了Web上的海量数据,从统计规律上揭示了词语之间的相似程度。第二种方法利用词典释义求解相似度。词典是专家知识的总结,这种方法拥有数据可靠、计算效率高等优点。为了进一步提高计算效率,本文还使用链接分析方法来获取释义中最核心的词汇集合。实验结果表明,两种方法都是有效的,尤其是第二种方法。词汇语义相似度计算是本文后续工作的支撑方法。三、提出了一种自动在词典释义中抽取属性的Bootstrapping方法,从而构建一个属性知识库。属性知识库是一种应用广泛的语义资源,可用于信息检索、结构消歧等工作中。这种方法根据用户提供的若干种子启动训练,然后迭代生成抽取模板,并抽取新的属性。迭代过程中采用生物序列比对算法,对齐种子的上下文,从中自动生成语义上相对明确、容易理解的模板集合。为了提高模板的抽取能力,本文还在序列比对算法中融合了词汇语义相似度度量,并使用同义词资源对模板进一步泛化。实验结果表明,这种方法在准确率和召回率上都取得了较好的性能。四、提出了两种协同工作的属性名扩展方法和一种基于Web的属性名验证方法,对属性抽取结果进一步扩展,以构建内容更加丰富的属性知识库。属性扩展包括基于下位语义关系和基于并列语言成分的方法,这两种方法都是对语言现象的总结与利用。为了对扩展的属性名进行验证,本文提出了一种改进的PMI-IR算法,利用搜索引擎的查询命中数来对候选属性名进行评分。实验结果表明,这两种属性扩展方法可以极大地丰富属性名集合。五、提出了面向检索的概念图自动标引技术。首先使用属性抽取方法对已有文档进行处理,构建概念框架图,将标引工作转化为框架图的填充。为了更好地刻画用户的查询目的,本文提出了“需求焦点”这一概念,并与传统的用户需求类型做了对比。在查询标引中,本文还提出了一种基于搜索引擎的最大匹配分词方法,比传统分词方法能更准确地切分出查询中的命名实体。最终实验结果表明,查询和文档的自动标引都达到了较为不错的准确率和召回率。六、提出了面向检索的概念图相似度计算方法。相比以往工作,本文更为细致地分析了实体、属性名和属性值三种节点的不同,对应提出了不同的节点相似度计算方法。然后在此基础上,对整张概念图的相似度进行递归计算。实验结果表明,基于概念图的检索模型是有效的,而且需求焦点的引入能提升搜索结果的质量。