【摘 要】
:
语音韵律边界识别是指对输入语音的韵律边界,包括韵律词,韵律短语,语调短语等,进行自动的判别。基于声学特征的韵律边界识别对自然语言理解和语音合成等领域具有重要的意义。在语音语义理解方面,声学特征直接表达了说话者的停顿和节奏,正确的韵律边界识别才能正确理解语义。另一方面,目前合成语音的自然度还有待提高,基于声学特征的韵律边界识别和标注是高质量自然度高的合成语料库必不可少的。另外,在当前的汉语韵律边界识
论文部分内容阅读
语音韵律边界识别是指对输入语音的韵律边界,包括韵律词,韵律短语,语调短语等,进行自动的判别。基于声学特征的韵律边界识别对自然语言理解和语音合成等领域具有重要的意义。在语音语义理解方面,声学特征直接表达了说话者的停顿和节奏,正确的韵律边界识别才能正确理解语义。另一方面,目前合成语音的自然度还有待提高,基于声学特征的韵律边界识别和标注是高质量自然度高的合成语料库必不可少的。另外,在当前的汉语韵律边界识别研究中,大多数研究都忽视了次要韵律短语边界,同时该边界处的声学特征并不明显,从而导致该韵律边界识别效果不是很理想。因此,针对于汉语韵律边界识别中所存在的问题,本文利用特征工程方法基于声学特征对汉语韵律边界识别进行了研究。首先本文从特征选择角度出发,对当前韵律边界相关的声学特征进行了调研,并通过开放语料库对这些相关声学特征进行了统计分析,再与当前的研究工作进行对比,从而找出和韵律边界具有相关性的特征。其次,针对韵母结构对汉语韵律边界识别中韵母时长的影响,从特征构造的角度出发,提出了基于韵母结构的归一化韵母时长模型,从而将实际韵母时长与韵母结构特征结合起来,构造出了新的归一化韵母时长特征,并利用长短期记忆(LSTM)网络模型对韵律边界识别进行建模。最后通过对不同特征集下的韵律边界识别结果进行对比,发现相比于实际韵母时长特征,经过构建后的归一化韵母时长特征在次要韵律边界识别中,F-Score提升了5.9%,在韵律词边界、主要韵律短语边界及语调组边界识别中,F-Score分别提升了1.4%、1.8%和0.8%。再次,在对特征集进行扩充和完善后,针对高维特征给识别模型所带来的维数灾难问题,对特征提取部分引入了PCA-LDA降维算法。同时,考虑到LSTM网络模型在韵律边界识别中可能会损失一部分关键信息,本文为网络模型引入了注意力机制。最后的韵律边界识别结果表明,相比于降维前,降维后特征集对应的韵律边界识别F-Score整体提升了14.9%,并且在次要韵律短语边界上F-Score提升了4.2%。另外,对比原有网络模型和引入注意力机制后的网络模型发现,改进的网络模型韵律边界识别F-Score平均提升了2.5%。最后,对本论文围绕韵律边界识别所展开的所有工作进行了总结,并对本文中一些仍然有待完善和改进的地方做了简要分析。
其他文献
野外训练是提升部队士兵体能和战斗力的重要方式,对于建立强军强国的部队具有重要意义。计算机辅助训练技术的应用,对军事训练过程中的士兵信息管理、训练方案的实施、士兵运动状态的检测、保障训练过程安全等方面,都有非常实际的意义。计算机辅助训练的关键是训练场所士兵训练的实时数据采集,对运动形态的模式识别。野外训练的地理环境复杂,包括山林、湖泊等;训练时间段不定,白天夜晚都有训练任务;训练场景多样,会放置形状
图是一种非线性数据结构,可以表示现实世界中许多关系复杂的数据,比如现实地图、神经元网络、社交网络等。偏心率可以用来描述图中顶点的重要程度,一个顶点偏心率指的是从该顶点出发的最长最短路径的长度,得知顶点的偏心率有助于分析图的其他特征,比如图的中心性、半径和直径等。本文针对现有偏心率求解算法存在的索引构建代价高的问题展开研究,研究内容如下。首先,提出基于子图划分的索引构建策略及相应的算法。和已有算法在
近年来,校园欺凌事件时有发生,引起了社会各界的广泛关注。校园霸凌会给受害者的身心带来巨大的伤害,但他们往往出于自尊心、害怕遭受报复等原因,不能主动将事情报告给老师和家长。视频监控作为一种重要的安全防范手段,近十几年得到了快速发展,校园里也基本覆盖了监控摄像头。但使安保人员长时间、不间断地盯着监控视频并不现实,往往是出事以后才回放视频进行查证,难以在校园暴力事件发生的第一时间介入。因此,本文针对基于
随着互联网和智能移动设备的普及,基于位置的服务(Location Based Service,LBS)也得到了更加广泛的应用,并成为人们日常生活的重要组成部分。LBS的使用需要用户提供相应的位置信息或者请求信息,不可信的位置服务提供商或者其他攻击者通过收集并分析这些信息造成用户隐私泄露。因此,在保证LBS服务质量的前提下实现用户位置隐私保护尤为重要。具有背景知识的攻击者对位置数据进行推理攻击是用户
随着互联网的快速发展,网络社交成为人们拓展社交圈的新方式。社交网络平台中大量用户和海量数据容易造成信息过载问题,用户无法及时获得有效信息。潜在好友推荐是大多数社交网络平台具备的功能,平台中用户好友关系越丰富,平台与用户的黏度越高。如何向目标用户推荐与其最相关、最有吸引力的其他用户,是目前仍需不断研究并解决的问题。用户在网络平台产生的文本内容反映了用户的兴趣及情感倾向。当前基于内容的用户好友推荐,利
在2020年初,一场疫情突如其来,截止于目前2020年11月为止全球已经有3000多万人感染了新冠病毒,同时全球又有100多万人死于新冠肺炎,这一事实令人感到恐惧。为了更快地战胜新冠病毒,目前已经有许多专家进行了疫苗的研发,除此之外,在日常生活中我们的卫生防护也尤为重要。本课题的主要研究内容是非织造材料的三维点云重建与纤网结构表征,利用光学显微镜采集非织造材料的多焦面序列图像,利用聚焦测距与卷积神
近年来,我国频繁发生雾霾等恶劣天气。在雾霾天气中,由于大气光散射效应的作用,图像采集设备获取到的车牌图像产生了严重退化,即车牌图像的表面覆盖一层雾气,并且模糊不清和颜色信息大量缺失,这些因素严重影响了智能交通系统的有效性和可靠性。因此,课题对雾霾天气下的车牌识别技术展开研究,解决雾天条件下车牌识别率低等问题,从而提高智能交通系统的功能完整性和可靠性。雾霾天气下,影响车牌识别效率和正确率的因素较多,
随着新材料的不断开发与发展,硅基材料被广泛应用于电子器件,生物医疗,工业催化等领域。硅基材料的网络结构如玻璃网络结构、聚合物交联网络结构以及有机硅超分子聚集体的研究对开发硅基材料以及拓宽其应用领域具有重要意义。基于以往玻璃分子动力学模拟中无拓扑定义力场对高温和常温下物理性质描述无法兼顾的问题,我们提出了一种变温拓扑构造方法,在不同的温度下得到不同的Si O_2无规网络拓扑用于熔体冷却玻璃化过程的分
当今世界,经济全球化是大势所趋,各国之间的交流越来越密切,越来越多的人开始重视英语口语学习。计算机辅助语言学习的发展让人们学习英语口语更加便捷,然而作为其核心的错误发音检测与纠正目前仍有不足之处。目前的发音检错纠错大多仅仅依靠语音信号进行判别,发音检错和纠错准确率有待提高,尤其是在噪声环境下,准确性下降明显。英语的很多音素具有不同的面部视觉特征,尤其是元音,几乎都在外观上可用唇部的圆展情况和绷紧程
中国的房地产行业经过二十多年的快速发展,逐渐转入平稳增长阶段,并且随着国家宏观调控力度的加强,很多房地产企业面临资金周转不顺畅的问题,进而导致房地产企业财务风险加大,甚至可能威胁到房地产企业正常的经营活动。当前,房地产企业虽然按照规范运营,采用了较为合理的内部控制方式,且实施了约束机制,但是财务风险依然较大,对企业的发展非常不利。因此,需要采取必要的防范措施,对资金实施有效管理,降低风险发生率,避