论文部分内容阅读
词义消歧一直是自然语言处理中的热点和难点问题,有着重要的理论和实践意义,诸多学者已在现代汉语方面展开了一定研究,而在古代汉语领域,相关研究却很少有人涉足,我们所做的工作就是在古代汉语的词义消歧方面进行一些探索。
本文调研了现代汉语领域的词义消歧研究现状,分析了目前词义消歧所采用的相关技术,考察了古代汉语和现代汉语词义消歧方面的异同,在古代汉语词义特点的基础上,确定出面向古代汉语信息处理的词语义项区分应该遵循的原则和方法。然后在现有的词义消歧理论和技术的基础上,采用机器学习的方法,选择合适的特征,使用广泛应用于信息处理的高效率的CRF分类模型,将统计模型和语言学知识有机结合起来,对“如”、“将”、“我”、“信”、“同”、“之”、“能”等古代汉语高频、典型词进行了单分类器的词义消歧实验,效果达到86.45%。最后基于NaiveBayes、KNN、RFR_SUM、CRF、Maxent模型进行了古代汉语词义消歧实验,根据单分类器消歧性能,运用乘法法则、均值法则、最大值法则、投票法则等集成法则进行了分类器集成消歧实验。实验表明按照乘法法则得到的集成结果F值最高,达87.17%;各个词的具体实验F值分别为86.59%、87.33%、88.07%、65.31%、92.93%、84.02%、94.33%,分别比其Baseline提高了35.75%,13.7%,46.02%,16.33%,2.02%,48.97%,4.26%,效果显著,可见分类器的集成对古代汉语词义消歧效果良好。
此外,本文在基于单分类器词义消歧结果集成基础上,开发了一个人机交互式半自动词义标校平台,提高了人工标注的效率,减轻了词义标注的负担,保证了标注的一致性。