论文部分内容阅读
本文的研究目标便是构造一个汉语分词、词性标注和句法分析的一体化模型,该模型通过加强汉语切分标注和句法分析之间的联系,以增强其处理能力;由于考虑到汉语中的未登录词会极大地影响汉语处理系统的性能,本模型同时考虑了未登录词的识别;此外,该模型又保留了很好的可扩展性,为今后采取更复杂的消歧策略及未登录词识别策略奠定了基础。
首先,提出了一个汉语分词和词性标注的一体化模型,该模型引入了词长信息作为新的统计特征,在一定程度上改善了切分标注的性能。其次,设计了在切分标注模型中整合未登录词识别的方法,并对中文人名识别、中文地名识别及外国译名识别进行了实验。最后,设计句法分析模块。切分标注模块为句法分析提供特定的输出模式,并同时产生句法分析所需要的统计数据和词汇特征;句法分析则采用特定的文法体系和分析算法对切分标注的输出进行分析。
作者在模型思想的基础上,实现了一个实验系统,以验证一体化模型的可行性。为了对该系统进行客观、公正的评价,本文的最后一部分为一体化模型建立了一套特有的评测体系,并给出在此体系下实验系统的评测数据。在这些实验数据的基础上,对一体化模型今后的发展作进一步的展望。