中文问答系统中问句相似度的研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:rfy68213919
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文在研究汉语句子相似度的过程中,针对汉语由语素构成词语,由词语构成语句的特点,分别对汉语中的义原、词语、句子三个层次的相似度计算进行了研究。并根据问句自身的特点,对问句进行结构分析,将问句划分为问句意图和关键词集两部分,分别计算相似度,最后利用“整体相似度等于部分相似度加权求和”的思想加权得到问句的整体相似度。具体来讲,本文在句子相似度计算的研究过程中,所做的主要工作及取得的主要成果如下:  1)研究了汉语词语的语义相似度及其计算方法,利用知网提供的丰富的语义信息,计算义原的相似度和概念的相似度,进一步计算基于知网的词语语义相似度。  2)研究汉语语句的问句意图,并提出问句意图的提取方法。问句意图的提取是以疑问词为研究对象的,问句结构不同,问句意图的表示和提取方法也会有所差异。本文的研究是处于自然语言问答系统背景下,通过统计和分析大量真实的语料,收集到所有常用问句意图的类型,从而根据问句结构针对性的提出相对应的问句结构的提取方法。  3)研究了汉语句子的相似度及其计算方法,提出基于问句结构分析的问句语义相似度计算方法。该算法从多个层次考察语句的相似性,充分利用句子含有的目标层、结构层、语义层等丰富信息。运用一种简单有效的融合手段确定句子相似度的值。其中,对问句中特征项的赋权借鉴了基于向量空间模型的TF-IDF方法,将特征项的tf*idf值作为特征项的权重。  4)结合自动问答系统,以黑龙江省移动人工智能客服体系问答系统的模型为实例,体现问句相似度计算在具体应用领域的重要性。并通过问句匹配实验证明了本文所提出句子相似度计算方法的实用性和有效性。  这一课题的研究及其成果对于中文信息处理中的多种领域,都将具有一定的参考价值和良好的应用前景。
其他文献
现实世界中的很多系统都可以抽象为网络,如人际关系网、论文引证网、科学家合作关系网、微博用户关系网、互联网等。这些网络都具有共同特点:即复杂的内部结构,因此被称为复杂
微电子技术、无线通讯技术及嵌入式计算技术的快速发展使得无线传感器网络被广泛应用在环境监测、健康监护、智能家居、目标跟踪及空间探测等领域。无线传感器网络是由分布在
VoIP可以和传统的IP应用结合在一起,提供一些新的集成了音频和数据的应用,相比传统电话网络有了许多新的优势,也得到了广泛的应用。VoIP技术的广泛应用要求面对不同的网络环
行车安全一直是国家和个人关注的焦点,随着汽车持有量的持续增加和公路级别的不断提高,全世界的公路交通事故频繁发生,交通安全问题日益严重。在这种情况下,疲劳检测应运而生
稳定可靠的网络通信对无线传感器网络的研究和应用非常重要。随着研究的深入,越来越多的研究人员发现基于理想的通信模型假设设计的无线传感器网络协议在实际应用中性能非常
基于深度图像的手势识别技术随着深度传感器的发展已经逐步替代已有的其他传统手势识别技术。通过深度信息的获取大大简化了手势分割和手势追踪的处理过程,这两者都是手势识
经济全球化极大地推动了企业信息化,信息技术和网络技术的迅猛发展又加速了企业间信息系统的整合。在这种趋势下,企业之间的业务协作越来越频繁,同时也越来越复杂。为了打破
随着计算机通信技术和互联网的飞速发展,多媒体数据特别是数字图像逐渐成为人们获取信息的重要来源,成为人们生活的重要组成部分。但随着图像处理技术的发展,人们对数字图像
如今传统的Web已经不能满足我们的需要,Ajax技术的出现给传统的Web带来了巨大的冲击。同时Ajax框架及其应用模式成为普遍关心的问题。本文着力对其进行深入分析研究,发现Ajax框
随着Flash产业的发展与成熟,Flash存储器作为一种新的存储介质已经被广泛应用到计算机系统中,并有全面取代磁盘的趋势。由于与传统磁盘的读写特性不同,Flash存储器上的数据管理