基于统计方法与依存特征的汉语语言模型建模方法

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:neoin123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该论文采用统计的方法,对如何提取远距离依存特征,建立特征依存模型,以及如何将基本统计语言模型和依存模型结合建立联合模型等问题进行了研究.首先,在基本模型框架的选择上,我们选择了统计语言模型中最具有代表性的N-gram模型,它以其有效性和易于计算的特点在不同领域中得到了广泛应用,并取得了显著成功.为了克服由于数据稀疏带来的零概率现象,采取了Katz平滑技术对模型进行了平滑.接着,由于汉语中有一些词具有明显的主题相关特性,这些词在一些题材中出现的概率比在另外一些题材中出现的概率大的多.这些词可看作为主题相关词.我们将IDF特征处理后,用其提取主题相关词.然后根据MLE准则对这些主题相关词建立了相应的依存模型.基于上述两种模型,我们建立了联合模型.结合两大模型有不同的方法,可以用最大熵方法,也可以用线性插入法.由于最大熵方法在用于语言建模时存在计算量过大和系统内存要求过高的问题,我们用线性插入法建立了联合模型.利用自建的语料数据库,对不同的模型进行了实验测试.
其他文献
南朝宋宗炳在《画山水序》中提出“夫理绝于中古之上者,可意求于千载之下;旨微于言象之外者,可心取于书策之内”的美学观点,五代后梁荆浩《笔法记》也提出了“度物象而取其真
期刊
CORBA是一种开放的、分布式对象计算的标准工业体系结构。具有平台独立性和语言无关性,以及在分布式异构环境下的互操作性。用CORBA开发的软件既具有面向对象又具有可重用性、
期刊
油画在中国发展过程中,经历了不同的阶段,从早期全面学习西方的绘画技巧到新中国成立后与本土化文化结合的尝试,再到如今不断创新的油画语言,油画创作在中国出现一种蓬勃发展
期刊