论文部分内容阅读
语音作为人类重要的交际工具之一,除传递字面信息,还通过语气的变化传递情感。当前情感语音研究,主要集中于某些特定情感状态与语音信号关联关系的探寻,虽然观察到一些情感与声学参数变化相关联的指向性线索,但由于情感表现的多样性和复杂性,导致情感声学参数的数值分布多呈现较大的离散特性。情感语音合成时,情感信息来源于人工指定或特定数据库分析,结合文本内容与场景因素的情感预测研究仍处于起步阶段。论文研究重点是基于文本分析实现言语情感预测,解决情感语音合成中文本-情感信息分析问题。研究主要涉及以下问题:1)相关的理论需要有所升华,尤其是要解决情感的准确刻画和动态衍化过程的描述;2)建模技术需要有所突破,考虑到影响情感因素及情感生成过程的复杂性,所需处理的特征参数可能会来自多个层面,模型应能支持多尺度特征处理及动态衍化过程刻画。针对第一个问题,论文在心理学、朗读学、播音学与语音学等相关理论和实践指导下,采用心理语言学、感知语音学实验和数据分析相结合的方法,探索汉语朗读或播音等创作型有声语言活动中情感表达与言语特征间的关联关系,进而对言语情感生成及衍化机制进行归纳。以此为基础,提出多视角情感描述方案,分别从认知评价、心理感受、生理反应和发音描述四种视角描述言语情感的不同侧面,各视角互为补充,共同构成言语情感的分布式表达。各视角之间依据言语情感生成过程形成直接或间接的衍化关系。发音描述作为言语情感生成过程的最终输出结果,形成连接情感描述与声学参数的接口,有助于发现二者之间更为显性的映射关系。基于该描述方案,构建了一个新闻言语情感数据库,通过言语情感标注的实施以及后续预测模型的建立验证了言语情感生成过程及描述方案的合理性。针对第二个问题,采用深度神经网络构建文本-情感预测模型;一方面由于深度网络的多层非线性映射结构与多视角描述模型的多层分布式结构一致,另一方面便于模型实现对情感动态衍化过程以及多尺度特征关联关系的建模。具体来说,暂不考虑文本内容之外的影响因素,利用主题模型提取文本的语义空间向量表示,依次预测篇章级、段落级和句子级不同尺度的情感信息。各尺度内部,形成由认知到心理、生理再到发音的衍化关系,发音描述作为最终目标,其他成分作为其子目标,子目标依次作为后续预测目标的部分已知信息参与到后续模块的训练;不同尺度之间,构成由上至下的层级结构,大尺度单元的预测结果作为小尺度单元的部分已知信息参与到小尺度单元的预测,为其提供更为全局的上下文参考。最后通过实验验证了所提方法的有效性,加入情感衍化关系以及多尺度特征间关联关系的影响,使模型最终预测结果的召回率、精准率和F1值分别相对提升了31.8%、10.3%和22.8%。本文工作的主要创新点在于:(1)基于言语情感生成过程的分析归纳,提出多视角情感描述模型:模型细致刻画了言语情感生成过程中各成分的变化及之间的衍化关系,并以发音描述作为连接情感与语音的接口,用于指导后续合成语音时声学参数的调整;(2)基于深度神经网络,构建文本-情感计算模型:模型综合考虑了言语情感生成过程中来自不同尺度特征的影响以及不同情感成分间的衍化关系,支持多尺度特征融合以及动态衍化关系刻画;(3)将先验知识引入深度神经网络,实现网络中间结构的部分可见化:通过网络结构的直接显性设定,有效利用了言语情感生成的先验知识,降低了训练数据与网络规模的开销,预测性能亦有所提升。