基于拼音图的两阶段关键词检索系统

来源 :清华大学学报(自然科学版) | 被引量 : 0次 | 上传用户:mengminyan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对当前关键词检索系统中单阶段系统检索速度慢,基于大词汇量连续语音识别(LVCSR)的两阶段系统又不够稳健的现状,提出一种新的基于拼音图的两阶段检索系统以满足快速、稳健检索的需要.两阶段分为预处理阶段和检索阶段.预处理阶段将语音数据识别成具有高覆盖率的拼音图.检索阶段响应用户的频繁查询,在拼音图中查找出与关键词拼音匹配的拼音串,并采用基于N元拼音文法的前后向算法计算置信度以实现对检索结果的筛选.实验表明:系统的二字词召回率及正确率可达72.19%和72.68%,三字词召回率及正确率可达73.51%和82.98%,均优于LVCSR系统,且检索阶段仅需0.01倍实时,具有良好的实用价值.
其他文献
处于社会转型期的大学新生正经历着从高中到大学的改变和转折,其成长需求必然会体现出与众不同的个性,而这些需要能否被充分地认识和满足,直接关系到高等教育质量的保障.本研
肾动脉狭窄常导致缺血性肾功能不全以及顽固性高血压,严重影响了患者的生存质量.因此,该疾病的早期、准确诊断对于患者的病情和预后判断具有重要意义.目前,评估的主要方法包
目的 考察高低自我监控者在陌生人与熟人情境下的被洞悉错觉.方法 用Synder自我监控量表从220名大学生中选出典型的高低自我监控被试.设计2个试验情境,采用“饮料识别”程序
结合知识链组织间的冲突案例,分析了如何使用IFR以及IFR往回走一步来定义知识链组织间的冲突问题,找到问题的根源;运用IFR参数模型,确定了技术矛盾参数和物理矛盾参数,通过将
战略性新兴产业是引导未来经济社会发展的重要力量.从产业融合的角度界定了战略性新兴产业的内涵,在此基础上,结合波特钻石理论,构建以产业资源潜力、产业联动效应、产业需求
针对目前科技学术期刊研究简报使用的现状和存在的问题,提出应当正确认识和评价研究简报这种文体类型及其所报道的科研成果.综合分析了研究简报的文体特点、作用和编排要求,
A new caged polyprenylated xanthone,gambogic aldehyde(1),was isolated from the resin of Garcinia hanburyi.Its structure was elucidated on the basis of spectral
基于企业资源计划理念分析了科技信息行业的特点.信息行业的典型业务是从事数据加工、提取义件、知识和情报服务,在某些情况下,还需要向用户提供解决问题的方案.针对科技信息
为了解决在语义W eb信息处理中本体的频繁存取造成的性能问题,提出基于B ayes ian决策理论的本体缓存模型。该模型有效利用本体的语义性和本体的存取日志来抽取特征向量(包括
用加权关联度作为灰色米质指数,在介绍其求解原理和方法基础上,对灰色米质指数在稻米品质综合评判和分级中的应用进行了初步探讨.通过对6个籼稻品种综合米质的评判结果表明,