文本语义相似度计算方法研究及应用

来源 :苏州大学 | 被引量 : 3次 | 上传用户:ankeng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似度计算一直是自然语言处理领域研究中的一个基础问题。而文本语义相似度计算则是在文本相似度计算基础上增加了语义分析,在语义层面对文本相似度作进一步的分析研究,具有广阔的应用背景。本文针对句子级别的文本语义相似度计算问题,提出了应用结构化特征和神经网络的方法,并将该方法应用到一个实际的问答系统中,取得了良好的效果。本文深入研究文本语义相似度计算方法,主要研究内容如下:(1)基于结构化表示的文本语义相似度计算方法针对句子级文本相似度计算方法中平面特征表征性弱的问题,本文提出了应用结构化特征来表示句子级文本的句法、语义等信息。在浅层句法树和依存关系树的基础上,获得了基于短语的浅层句法树PST(Phrase-based Shallow Tree)和基于短语的依存树PDT(Phrase-based Dependency Tree)的结构化特征,并与平面特征向量相结合,使用支持向量回归模型进行文本语义相似度计算。实验结果表明,加入PST或PDT特征可以分别使皮尔逊相关系数比基准系统提高0.054和0.041。(2)基于Tree-LSTM的文本语义相似度计算方法为了进一步提高长文本语义相似度计算性能,本文提出应用深度学习方法对长文本进行语义相似度计算研究。首先,设计了适合神经网络模型的新的基于短语的浅层句法树NPST(New PST)和新的基于短语的依存树NPDT(New PDT)结构化特征;其次,将以上结构化特征与多个Tree-LSTM模型相结合进行文本相似度计算。实验结果表明,在长文本集上使用NPST和NPDT,可以分别使皮尔逊相关系数比基准系统提高0.012和0.053。(3)基于文本语义相似度计算的问答系统本文提出了基于工单内容的文本语义相似度计算方法,并将该方法运用在自动问答系统中。对用户咨询的内容使用文本相似度计算方法查询结果,对查询到的结果按照相关性进行智能排序。应用表明,该方法可以提高返回用户咨询答案的正确率,减少话务员工作量。
其他文献
大量经验研究表明,教育在中国人地位获得中的作用在加强,与此同时,人们也发现来自家庭背景,或者说阶层背景的差异对人们的教育获得的影响也是不可忽视的。那么家庭背景是如何
哈贝马斯的普遍语用学以奥斯汀与塞尔的言语行为理论为基础,但又有超越。这种超越体现在3个方面:哈贝马斯突破了奥斯汀与塞尔关于制度界限内的以言行事行为,提出了非制度界限
哈贝马斯的言语行为理论在其社会批判理论中占有重要地位。他认为,社会秩序得以可能的基础是交往行为,而交往行为得以可能的基础是言语行为,因此,以言语行为为中介的交往行为