基于多示例学习的汉语口语语音中不流利事件检测研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:gutj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人工智能越来越融入人们的工作生活中,人与机器的智能语音交互应用更加广泛,机器需要更好的理解人们各种情境环境下的语音,现阶段主要包括流利的朗读式语音、较短的命令式语音等,而在较长的自然口语语音方面,智能语音识别还面临很大的挑战。本文主要是对汉语自然口语语音数据中不流利事件的检测研究,可以看作语音识别任务的一个前端工作。不流利事件即自然口语中犹豫、填充停顿、重复等现象。它是语音中非正常语义的行为,对不流利事件的检测研究属于语音副语言研究范畴。在本文中,提取了能够很好地表征不流利语音的特点的韵律学特征和谱相关特征,并且提出了多示例学习的模型以解决在不流利语音中,不流利事件持续时间短而噪声信息过多的问题,通过训练多示例学习模型对不流利事件进行识别。论文的主要内容有:(1)汉语自然口语不流利事件语料库的构建。本文从已有标注的哈工大流媒体数据语料库中提取我们需要的流利语音和不流利语音。本文依据该原始语料库中的标注文件,分析了不流利事件的标注特点,找到不流利事件的标注规则,然后依据此规则找到了自动检测不流利事件的有效方法,自动切割不流利语音,然后通过人工复检自动切割的语料,完成了汉语自然口语不流利事件语料库的构建。(2)基于长短时记忆网络(Long Short Term Memory Network,LSTM)的不流利语音分类方法。本文使用LSTM网络模型作为基线系统,对汉语自然口语中不流利事件进行识别检测。该基线系统使用的特征为梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)语音特征。文中在介绍LSTM网络的结构特点的基础上,阐述了与此模型相关的音频预处理、特征提取、LSTM模型的训练和测试等过程,最后给出了该识别模型的测试结果。(3)基于多示例学习(Multiple Instance Learning,MIL)SVM模型的不流利事件的识别。多示例学习中包是有标签的而包中的各个示例是没有标签的,可以说多示例学习是结合了监督学习和无监督学习特点的一种学习方法。本文将多示例学习引入到口语事件识别任务中,并且将多示例学习与传统的机器学习方法支持向量机(Support Vector Machine,SVM)分类器结合,进行分类检测。该系统使用的特征为副语言特征集,该特征集中不仅包含MFCC等谱特征,还包含了一些能够很好地表征语音声学特性的韵律特征等,在以往的语音副语言识别中表现出了较好的效果;(4)基于多示例学习神经网络模型的不流利事件的识别。将多示例学习引入神经网络,构建符合多示例学习规则的误差函数,充分利用神经网络学习能力强,鲁棒性高的优点,训练一个基于多示例学习的神经网络模型,利用此模型对测试集的语音进行识别,得到识别的准确率;并在这个模型上进行了改进,增加了深度监督机制,以提高特征学习能力,提高识别准确率。最后通过实验表明此改进的方法有较好的识别效果。
其他文献
据世界卫生组织统计,皮肤癌的致病率和死亡率逐年增加,严重威胁人类的生命健康,其中黑色素瘤作为最致命的一种皮肤癌,是导致皮肤疾病致死率持续增长的主要原因,在其早期进行及时诊断和临床干预是提升患者治愈几率的重要途径。利用皮肤镜技术观察活体皮层,分析皮肤镜图像丰富的纹理、色素特征,可量化评估皮损区域的严重程度和发展趋势,辅助医生进行高效的疾病诊断。其中精确的皮损区域分割既是开展皮肤镜图像分析、处理的关键
卵巢组织冷冻和移植是目前保存幸存癌症患者生育力的最理想的方式,全球已有约140名婴儿顺利出生,且移植后60%左右患者在三个月内恢复内分泌功能。目前均采用卵巢组织皮质移植
美国儿童文学有众多作品以印第安人为主要内容。然而,这些作品大多扭曲并刻板化印第安人形象,错误地表征印第安文化,其结果,现代儿童阅读这些作品会深化种族偏见,错误地认知印第安文化。厄德里克在其儿童文学桦皮树小屋系列中,试图刻画真实的美国印第安人形象,展现其真实文化图景。其体现的印第安文化系以万物有灵且众生一体的自然观为特质。该系列的《桦皮树小屋》和《沉默游戏》这两部故事生活文化背景基本保持原始风貌,故
人乳头瘤病毒(Human papillomavirus,HPV)是一种致癌DNA病毒,是导致尖锐湿疣和子宫颈癌的主要病因。研究表明病毒内的一些基因变异与宫颈癌的持续感染密切相关,基于临床突变分析HPV蛋白质的重点功能区域已成为HPV相关疾病的主要研究方向之一。目前,已发表的HPV数据库收集整理了 HPV相关的数据,但还未有HPV突变数据库的报道。本文以HPV的突变、功能结构域、表位为对象,结合临床
千年窑火生生不息孕育了中国陶瓷艺术的繁荣与发展。而陶瓷装饰在整个陶瓷艺术发展的历史进程中都占据着举足轻重的地位。在装饰手法上也是变化万千各具风格。尤其是青花装饰
本论文意在从心理学的角度,剖析唐·德里罗《天秤星座》中的创伤与美国集体记忆。国内外对这部作品的研究多集中在小说的人物形象、主题思想、艺术特点、叙事手法以及后现代特征等方面,但鲜有学者对其进行心理学研究。本论文的理论基础是近年来兴起的“创伤记忆”理论以及莫里斯·哈布瓦赫提出的“集体记忆”理论。创伤记忆理论往往着眼于当事人遭受的不断闪现的个体心理创伤;集体记忆则是一个社会建构的概念,它是人们根据当下对
目的:本实验通过探索输尿管不全梗阻不同时段其平滑肌细胞凋亡的情况,寻找不全梗阻时间与细胞结构改变间的规律,间接为临床输尿管不全梗阻防治提供理论参考。方法:将78只SD大鼠(雌雄各39只)随机分为手术组、假手术组和对照组,每组雌雄各半,手术组和假手术组各30只,对照组18只;对照组仅作腹部切开,不实施输尿管干预,假手术组仅游离右侧输尿管下段,手术组按照腰大肌隧道包埋法建立右侧输尿管不全梗阻模型;每组
目的:脊髓损伤(spinal cord injury)是临床上常见的创伤性疾病,主要由高处坠落和交通事故等原因造成,具有致残率、病死率高的特点。SCI的病理生理过程包括原发性损伤和继发性损伤两个阶段。原发性损伤由瞬间暴力直接造成脊髓组织破坏,进而引起神经缺失或血管损伤;原发性损伤后缺血缺氧等因素引起的继发性损伤是造成神经细胞大面积死亡,进而导致功能障碍的主要原因,细胞的存活可为脊髓保留必须的解剖结
“艺术源于生活”这一命题认为一切的艺术都是现实社会生活中的反映,社会生活又是一切艺术创作的源泉。许多艺术创作都是不断地从自然世界和人类社会中汲取创作灵感的,陶瓷绘
光动力疗法(Photodynamic therapy,PDT),光热疗法(Photothermal therapy,PTT)与化疗的联合应用在抗肿瘤的研究中具有显著协同增效的作用。越来越多的研究证实多功能纳米递送系统在多模式联合治疗方面具有独特优势。目的:为了克服传统化疗的非特异性结合、体内不稳定性和毒副作用等缺点,打破光热疗法治疗转移性肿瘤细胞的局限性,本研究借助多功能靶向聚合物胶束实现全身治疗