论文部分内容阅读
基于大词汇量连续语音识别(LVCSR)的关键词检出是关键词检出领域的重要研究方向。为了给出足够的候选,提高检出的正确率,普遍采用网格(Lattice)作为中间结构方式。但由于Lattice结构不适合高效地从中提取所需信息,检出性能并没有期盼的那样好。因此,如何在LVCSR的结果Lattice中,对关键词进行高效地解码,成为该领域的研究热点。针对这一问题,研究人员提出了用混淆网络优化Lattice的方法,并将其应用于关键词检出系统当中。混淆网络的思想是,对Lattice中所有候选路径动态对齐,把竞争同一发音位置的词假设形成一个集合,然后把这些集合按时间顺序连接起来,再从每个集合中挑选最可能的候选,形成最佳词串。本文在现有的混淆网络生成方法的基础上,提出了一种更加适合于关键词检出的关键词混淆网络生成方法。该方法只对关键词竞争候选生成带有得分标记的关键词混淆网络,突出了关键词候选之间的竞争关系,最小化了关键词错误率,有效地保证了关键词的正确识别。这种方法实现简单,消耗时间少。实验结果表明,当基于N-best的关键词检出系统的召回率为62.89%时,基于混淆网络的关键词检出系统的召回率为87.11%,提高了24.22%。证明所提出的基于关键词混淆网络的生成方法是正确的、可行的、有效的。