汉语句子相似度计算方法及其应用的研究

被引量 : 0次 | 上传用户:tingren_8912
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在中文信息处理中,汉语句子的相似度计算是一项基础而又重要的工作,它直接决定着某些领域的研究发展状况。例如,自动问答系统、基于实例的机器翻译、信息检索、自动文摘等领域,句子相似度计算都是一个非常关键的问题,长期以来一直是人们研究的一个热点和难点。本文在研究汉语句子相似度的过程中,针对汉语由语素构成词语,由词语构成语句的特点,分别对汉语中的义原、词语、句子三个层次的相似度计算进行了研究。这三者层次不同,但是联系密切,由部分构成一个有机的整体,整个计算过程每一步都利用上一步的计算结果。本文主要有如下几个方面的研究成果:1.研究了汉语语句的问句意图,并提出问句意图的提取方法。问句意图的提取是以疑问句为研究对象的,问句类型不同,提取意图的方法也会有所差异。本文的研究是处于问答系统背景下,分析语料根据不同疑问句出现的频率,把问句类型分为三类:特指问句,正反问句,句末语助词问句,从而根据问句的类型针对性的提出相对应的问句意图提取方法。2.研究了汉语词语语义相似度及其计算方法,利用知网提供的丰富语义信息,计算义原相似度,进一步计算基于知网的词语语义相似度。词语相似度是本文句子相似度计算的基础。3.提出多层次多种特征融合的汉语句子相似度计算方法。该算法从多个角度考察语句的相似性,充分利用句子含有的目标层、结构层、语义层等丰富信息,从句子中提取问句意图、关键词集、句子长度、名词个数、动词个数、专有名词个数等多种特征。运用一种简单有效的融合手段,进而获取综合特征,利用综合特征确定句子相似度的值。4.以金融领域自然语言问答系统的模型为实例,体现句子相似度计算在具体应用领域的重要性。这一课题的研究及其成果对于中文信息处理中的多种领域,都将具有一定的参考价值和良好的应用前景。
其他文献
秦汉时期是中国封建社会早期,这一时期的许多制度、措施对后世均有深刻影响。本文从社会保障角度对秦汉社会进行了探析,得出以下结论:秦汉时期社会保障思想与实践源于先秦,大
随着电网规模的不断增大以及电缆运行时间的延长,电缆故障的发生也越来越频繁,如何准确、迅速、经济地查寻电缆故障成为亟待解决的重要技术问题。本课题在广西壮族自治区教育
在有机合成化学中,将烷烃的亚甲基氧化成羰基是一种非常重要的手段,在生物化学中更是倍受关注。虽然烷烃的氧化方法众多,但其中大多数所用到的氧化体系都需要高温、高压、强
目的:通过对74例颅底中央区脑膜瘤显微外科治疗的分析,探讨颅底中央区脑膜瘤的手术治疗策略和原则。方法:我院自2002年1月至2005年4月共收治颅底中央区脑膜瘤病人74例,其中起
本文通过化学沉淀—絮凝法处理双碱法烟气脱硫废水,是国家863课题“大中型燃煤工业锅炉烟气脱硫技术及设备产业化”(2001AA643030)的研究内容之一。 以双碱法烟气脱硫废水为
秦观是北宋中后期词坛上一位十分重要的词人。他的词作在继承婉约词绮艳题材和轻柔风格的同时,融入一己之身世,即“将身世之感打并入艳词”,从而形成含蓄蕴籍的风格特征,在当
驻极体是一类能够长期储存空间电荷和偶极电荷的功能电介质材料,驻极体产生的外电场作用于离体皮肤能改变角质层内的脂质双层排列方式,形成大量暂时的可渗透的新孔道,有效促
泰山羊肚菌采自泰山海拔200~600 米的山坡处,经分离纯化而得。本文以泰山羊肚菌为出发菌株,通过正交实验、单因素实验等方法确定了泰山羊肚菌液体培养及产胞外多糖最佳培养基
当前,我国的农村改革已进入以城乡协调发展为目标的结构性改革新阶段,消除农村公共产品供给的体制性障碍,增加农村公共产品供给已成为当务之急。 本文首先研究了农村公共产品
基于混沌振子的弱信号检测,是微弱信号检测处理领域的一个新方向。当前,将混沌振子用于弱信号的检测方案大体有两种:基于相变的检测方案、基于特征参量的检测方案。本文在研