论文部分内容阅读
该论文采用统计的方法,对如何提取远距离依存特征,建立特征依存模型,以及如何将基本统计语言模型和依存模型结合建立联合模型等问题进行了研究.首先,在基本模型框架的选择上,我们选择了统计语言模型中最具有代表性的N-gram模型,它以其有效性和易于计算的特点在不同领域中得到了广泛应用,并取得了显著成功.为了克服由于数据稀疏带来的零概率现象,采取了Katz平滑技术对模型进行了平滑.接着,由于汉语中有一些词具有明显的主题相关特性,这些词在一些题材中出现的概率比在另外一些题材中出现的概率大的多.这些词可看作为主题相关词.我们将IDF特征处理后,用其提取主题相关词.然后根据MLE准则对这些主题相关词建立了相应的依存模型.基于上述两种模型,我们建立了联合模型.结合两大模型有不同的方法,可以用最大熵方法,也可以用线性插入法.由于最大熵方法在用于语言建模时存在计算量过大和系统内存要求过高的问题,我们用线性插入法建立了联合模型.利用自建的语料数据库,对不同的模型进行了实验测试.