论文部分内容阅读
语言监测必然要面对大量的未登录词。本文依据词汇的时间分布信息,提出了未登录词提取的新方法。词汇的时间分布信息是语料本身所蕴含的基本分布信息,但常常被忽略或者说难以运用。本文从语言符号的线性特点出发,研究了如何词汇的时间分布信息建模,并提出了新的度量指标——同步衰减频率,以自动提取未登录词。实验结果表明该方法不受词长限制,对低频词尤其具有良好的鲁棒性,同时验证了词汇的时间分布信息在词汇处理中的有效性。