论文部分内容阅读
本文在研究汉语句子相似度的过程中,针对汉语由语素构成词语,由词语构成语句的特点,分别对汉语中的义原、词语、句子三个层次的相似度计算进行了研究。并根据问句自身的特点,对问句进行结构分析,将问句划分为问句意图和关键词集两部分,分别计算相似度,最后利用“整体相似度等于部分相似度加权求和”的思想加权得到问句的整体相似度。具体来讲,本文在句子相似度计算的研究过程中,所做的主要工作及取得的主要成果如下: 1)研究了汉语词语的语义相似度及其计算方法,利用知网提供的丰富的语义信息,计算义原的相似度和概念的相似度,进一步计算基于知网的词语语义相似度。 2)研究汉语语句的问句意图,并提出问句意图的提取方法。问句意图的提取是以疑问词为研究对象的,问句结构不同,问句意图的表示和提取方法也会有所差异。本文的研究是处于自然语言问答系统背景下,通过统计和分析大量真实的语料,收集到所有常用问句意图的类型,从而根据问句结构针对性的提出相对应的问句结构的提取方法。 3)研究了汉语句子的相似度及其计算方法,提出基于问句结构分析的问句语义相似度计算方法。该算法从多个层次考察语句的相似性,充分利用句子含有的目标层、结构层、语义层等丰富信息。运用一种简单有效的融合手段确定句子相似度的值。其中,对问句中特征项的赋权借鉴了基于向量空间模型的TF-IDF方法,将特征项的tf*idf值作为特征项的权重。 4)结合自动问答系统,以黑龙江省移动人工智能客服体系问答系统的模型为实例,体现问句相似度计算在具体应用领域的重要性。并通过问句匹配实验证明了本文所提出句子相似度计算方法的实用性和有效性。 这一课题的研究及其成果对于中文信息处理中的多种领域,都将具有一定的参考价值和良好的应用前景。