利用词汇时间分布信息提取未登录词

来源 :第九届全国人机语言通讯学术会议 | 被引量 : 0次 | 上传用户:doujiazhi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言监测必然要面对大量的未登录词。本文依据词汇的时间分布信息,提出了未登录词提取的新方法。词汇的时间分布信息是语料本身所蕴含的基本分布信息,但常常被忽略或者说难以运用。本文从语言符号的线性特点出发,研究了如何词汇的时间分布信息建模,并提出了新的度量指标——同步衰减频率,以自动提取未登录词。实验结果表明该方法不受词长限制,对低频词尤其具有良好的鲁棒性,同时验证了词汇的时间分布信息在词汇处理中的有效性。
其他文献
耳语音识别具有重要的研究意义和广泛的应用前景。建立了一个小规模的汉语正常音-耳语音对照语音库,其内容主要是数字串。分析所采集的耳语音和正常音样本,验证了它们的特点和区
本文分析了国内外儿童语音识别的研究现状,并具体从四个方面对其进行论述:儿童语音语料库的建设;儿童语音识别的特点,包括儿童语音声学特征及影响儿童语音识别的其它因素;儿童语音
麝香保心丸是目前我国最常使用的一种芳香温通类中成药,其功能主治为“气滞血瘀所致的胸痹,症见心前区疼痛、固定不移;心肌缺血所致的心绞痛、心肌梗死见上述证候者”[1].198
期刊
【问题】‘中东’和‘近东’有什么区别?这两个名词究竟指那些地区,包含那几个国家? 读者钱思界(苏北)等中东和近东这两个名词的用法,各国不很一致 What is the difference
根据语音信号的循环平稳特性,提出了一种基于循环累积量的语音激活检测(Voice Activity Detection, VAD)算法。算法利用信号子空间分解理论和谐波信号频率估计的旋转不变技术(Esti
会议
本文介绍了基于新的声道长度规整(VTLN),基音和异方差线性判别分析(HLDA)的有调语音识别系统。传统VTLN 能提高基本音节的识别率,却不利于声调的识别,本文提出新的VTLN,提高基本音节
会议
首先对传统的回声消除中的双端发声检测机制进行了分析,指出这些检测算法都存在一定的延时,导致在检测到双端发声之前滤波器已经一定程度地发散,从而影响双端发声段中的回声消除
本文根据双源谐波模型给出了一种提取语音信号清浊音分量的方法。该方法主要利用语音浊音分量的准周期特性,利用一组调频调幅的正弦信号和来逼近。在通过自相关法获得基音周期
会议
本文首先简要介绍了基于特定域口语对话系统错误处理的研究现状。利用汉语中词(字)发音相似或相同的特点,结合特定应用域的语言模型,我们提出了一种新的汉语口语对话系统错误处
本文主要介绍了基于子词加权得分的言语信息验证系统。传统的言语信息验证系统中,整句语音得分是由子词得分直接相加求得。本文使用在线废料模型计算子词置信度,考虑不同子词在