融合多特征的藏文句子相似度计算方法

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:wudongjiang888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
句子是自然语言运用的基本单位,也是自然语言处理的研究对象。句子相似度计算是文本相似度计算的基础,在文本理解中具有重要的意义。藏文句子相似度计算处于起步阶段,考虑的因素还不够全面。藏文句子相似度研究时需要一个衡量其性能的评测集,并在此基础上研究藏文句子相似度计算方法。在藏文句子相似度评测集方面,目前还没有合适的藏文相似度评测集,阻碍了藏文句子相似度计算的进一步发展。在藏文句子相似度计算方面,虽然有一些研究,但仅限于基于单特征的方法,而单特征不能充分揭示句子的相似度。为了提高藏文句子相似度计算性能,文章从藏文句子相似度评测集构建和融合多特征的藏文句子相似度计算方法两个方面研究了藏文句子相似度计算,主要内容如下:(1)句子相似度评测集是相似度技术研究必不可少的数据集,建立合适的评测集才能客观评价相似度计算方法的优劣。为了客观评价藏文句子相似度算法的性能,文章在分析英文、汉文句子相似度评测集构建方法的基础上,结合藏文句子的特点,设计了藏文句子相似度评测集构建方案,根据评测集构建方案建立了用于评价藏文句子相似度计算的评测集TSS_320,并运用统计学方法验证了评测集的有效性。(2)藏文句子相似度与句子的多个特征相关,文章在分析藏文句子特点的基础上,提出了一种融合多特征的藏文句子相似度计算方法。首先,分别根据藏文句子的编辑距离特征、句子结构特征、句长特征、词序特征、相同词特征计算句子相似度,再对不同特征赋予不同权重,最后融合以上五种特征计算藏文句子的相似度。在结构特征中考虑了藏文的词性因素,对不同词性赋予不同权重;在相同词特征中考虑了时态因素,把不同时态的藏文动词当作相同词,使藏文句子相似度计算更为准确。
其他文献
语音识别作为人机交互的第一步,具有很重要的现实意义。在现实生活中,语音往往会受到噪声、混响以及说话人的干扰,使得语音识别系统性能降低。因此,为了解决上述问题,提高语音识别系统对于含噪语音的识别准确率,本研究针对孤立词与连续语音分别提出相对应的深度神经网络模型,从而用于鲁棒性语音识别。本研究的贡献如下:(1)针对孤立词鲁棒性语音识别,提出了迁移自编码器双向循环神经网络模型TAEBN。为了提取含噪语音
由于国内外语音识别研究技术的飞速发展,汉语、英语、德语等资源丰富语言的语音识别技术取得了良好的识别结果,特别是端到端技术的兴起避免了多个模块固有的缺陷,降低了语音识别模型的复杂性。然而,藏语语音识别由于其语料库构建困难和方言的特点导致发展缓慢,因此,提高藏语语音识别系统的性能具有重要的研究意义。目前,藏语语音识别面临诸多挑战:第一,尚未拥有权威公开的藏语语料库资源,语料库构建不易;第二,在特征提取
随着通信技术的换代革新,5G为物联网发展注入了新的活力,物联网技术已在医疗、共享经济、智慧城市等领域被广泛的应用。与此同时,伴随着物联网技术的快速发展,新的安全问题也在不断的涌现出来。当前,大量的物联网设备没有安全认证机制,设备间的信任问题严重依赖于中心化第三方服务,但在愈来愈多设备入网的大趋势下,中心化管理机制在面对海量的设备连接时,需要消耗大量的资源来提供安全服务,同时又面临着单点故障的安全风
双通信模式可穿戴天线由于可以实现体表通信和体外通信间信息的无缝传输,在近年来引起了研究人员的关注。本文根据工作机制将现有的双模式可穿戴天线分为三类,并针对每一类研究设计了一款天线。所设计的三款天线可以方便地集成在衣物表面或直接穿戴,在无线体域网中具有较好的应用前景,具体的工作内容为:(1)设计了一款双频段双模式可穿戴天线。该天线可应用于工业、科学和医疗频段中2.4-2.4835 GHz和5.725
机器类型通信(Machine Type Communication,MTC)使所有机器具备连网和通信能力,是实现物联网(Internet of Things,Io T)的关键技术,有着广泛的应用前景和应用价值。随着机器类型通信在网络中的应用越来越广泛,安全问题逐渐成为人们关注的焦点。传统的一对一安全方案可以保证数据的保密性和完整性,保护用户的隐私数据,但当海量设备进行业务数据请求时会导致核心网拥塞
数字化和大数据的快速应用使得各种应用场景对存储系统整体提出了更高的要求。传统的以写为主的负载场景正在向着读密集型方向逐步偏移,尤其体现在电子商务,各大短视频应用等领域。本文从FUSE以及LevelDB这两种当下使用广泛的存储引擎存在的对于读请求不太友好的问题出发,在LevelDB和原生libfuse上层API中设计实现了一种buffer cache系统,以降低磁盘I/O的比率,从而整体提高系统响应
当今时代,5G、物联网、云计算等技术的高速发展,带来了数据信息量的爆炸式增长,这对存储系统提出了更高的要求。存储系统的存取效率、数据的可靠性将受到严峻挑战。RAID存储系统具有良好的存取性能、优秀的可扩展性再加上相对低廉的成本,因而被广泛应用在各大企业的存储服务器中。本文基于RAID6存储系统,对RAID6编码的布局与重构、RAID6在线扩容方案的优化进行研究,并设计出两种方案。内容如下:本文提出
随着互联网的发展,近几年网络规模和网络流量出现井喷式的增长。数据中心面临的流量压力与日俱增,如何对网络流量进行合理地分配,缓解数据中心的负荷压力,保障网络的链路畅通就成为了需要解决的问题。传统的网络架构由于采取分布式的布局,难以进行全局性的优化;因此本文研究使用具有集中控制特性的软件定义网络(Software Defined Network,SDN)来解决数据中心的链路负载均衡问题。SDN的集中控
随着国内外汉语学习热潮的持续升温,围绕汉语作文自动评分的研究吸引了越来越多研究者的兴趣。作文自动评分的研究目标是利用计算机技术自动给作文进行评分工作,是自然语言处理技术在教育领域的重要应用。该技术不仅能够降低人工评分存在的主观因素的影响,而且能够很大程度上减轻阅卷人的工作负担。目前作文自动评分的研究和系统研发主要是围绕英语展开的,对汉语作文自动评分的理论和实践研究较少且没有得到较好的应用。本文主要
推荐模型作为解决信息过载问题的有效途径,近年来已在各领域得到广泛应用。传统推荐模型由于浅层的结构设计,导致其无法提取到用户和项目的深层次特征。同时传统推荐模型也无法对序列化的用户行为数据进行合理建模,难以学习到序列数据的前后依赖关系。现有的基于深度学习的推荐模型,多侧重于用户历史行为学习,或是侧重于项目内在关系的分析,难以兼顾深层次用户特征与项目特征的有效提取。鉴于此,本文探索基于深度学习推荐模型