基于多观测似然比的语音活动检测研究与系统实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:zhw0920
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语音活动检测是指从一段包含语音的信号中准确地确定语音的起始点和终止点的技术。由于语音活动检测对语音分析、语音合成、语音编码和语音识别等技术具有关键作用,所以本文针对语音活动检测的关键技术进行相关研究工作,并且实现一个语音活动检测系统。由于目前的语音活动检测方法众多,而基于多观测似然比特征的语音活动检测具有模型简单和检测性能好等特点,因此本文使用多观测似然比特征进行语音活动检测。首先对语音信号进行分帧,然后对信号进行噪声估计,根据噪声估计的结果计算每一帧的似然比,并将每帧似然比与之前若干帧的似然比共同组成分析样本。在完成特征提取步骤后,我们利用得到的训练样本训练语音活动检测的决策规则。本文使用线性分类器作为决策规则模型,所以问题的重点是如何训练得到合适的线性分类器权值,以使检测尽可能准确。本文介绍了最小分类错误(Minimum Classification Error,MCE)模型、最大化检测结果的ROC曲线下的面积(Maximum Area Under the ROC Curve,MaxAUC)模型和支持向量机(Support Vector Machine, SVM)模型,并且提出了扩展的MaxAUC模型。实验表明,扩展的MaxAUC模型和SVM模型具有更好的稳定性和检测性能。为了了解语音活动检测系统的真正需求和模块功能,本文对该系统进行了需求分析和系统设计。在需求分析中,列举了系统应该满足的要求,并且将系统分解为信号导入、特征提取、训练和测试四个模块,为了更清晰地表示各个模块之间的关系,本文用数据流图刻画了系统中数据在各个模块之间的传递和加工的过程,使我们对各个模块之间的关系有了更加清晰的认识。在系统设计中,我们首先表示了系统的整体工作过程,然后对于系统的几个重要模块描述了它们的功能、工作流程、参数和返回值。需求分析和系统设计为后续的系统实现和系统测试打下了基础。最后,本文对系统进行了测试,以验证系统的性能和效果。本文分别对系统的噪声估计和几个决策规则模型进行了测试,结果显示,该系统的检测性能良好。
其他文献
肝脏解剖结构复杂,且存在门静脉、肝静脉、肝动脉、胆管等四套管道系统,变异较为常见,因此对肝脏肿瘤的手术治疗难度大,风险高。  随着CT、MRI等造影技术的完善,及三维技术
随着智能电网的快速发展,电力行业已经进入了“大数据时代”。变压器是电网平稳运行的关键设备,变压器故障诊断方法能够保证电力系统平稳运行。在电力系统中,利用变压器在线监测技术可以及时发现其故障类型。但是由于监测的数量点多,且在一段时间内会多次获取监测数据,因此,其数据量规模急剧增长。通过对数据挖掘算法并行化,实现对海量的电力变压器监测数据快速分析。Spark是分布式内存计算框架,具有轻量级快速处理、兼
基于脑机接口技术的动物机器人,是以活体动物作为运动载体,将外部的控制指令直接施加于动物大脑,实现对动物感受和行为的干预控制,从而构建的新型动物-机器混合系统。受限于动物
当前,个人和组织的信息呈现急剧增长趋势且非结构化数据所占比重在不断的增加,这些属于某个主体的海量、分布、异构和共存的数据构成了一个数据空间,如何为用户提供高效、便捷和
随着物联网中的智能化物体数量急剧增长,如何对物联网进行高效的查询成为一个研究热点。目前,物联网中采用的查询系统为ONS(对象名称服务)系统,但随着互联网地址空间爆炸性的增长,O
跨文档共指消解(CrossDocumentCoreference,CDC)是以分散在不同文本来源中的相同名词实体为对象,通过信息抽取、信息表示和聚类等技术最终判定这些名词实体与客观概念之间的
web服务是从传统中间件技术演变而来的,是能通过网络使用的自描述、自包含、开放的软件模块,能够很好的支持基于web的企业级集成。web服务的目标是构建分布式应用,能够按照不同
随着互联网和Web2.0技术的迅猛发展,社会化标签被越来越广泛地应用于个性化的信息服务系统中。标签体现了群体智慧,它有效地联系了用户与资源,同时描述了用户的兴趣爱好和资源的
随着电子信息技术的发展,个人的一些隐私信息越来越容易受到侵犯,人们在确保个人信息安全的同时,也在积极寻求新的更加安全的机制,而基于虹膜纹理特征的虹膜识别技术经过多年的发
社会网络是现实中许多真实复杂网络的抽象,社会网络中蕴含着丰富的数据信息。现实世界中,社会网络随处可见,例如Blog、FaceBook和Twitter等在线社交网站。社会网络数据发布可以