论文部分内容阅读
自然语言理解又被称为自然语言处理或计算语言学,它是人工智能领域中的前沿难题之一。自然语言的识别和处理是人工智能研究的最重要的课题之一,也是人工智能研究的关键。其中在自然语言处理中的汉语词性标注是中文信息处理技术中的一项基础性课题,一个确切精准的词性标注对自然语言的理解有着极其广泛的意义,特别是在对输入文本进行句法分析、语义分析时,词性标注是一项必不可或缺的处理任务,因此,研究和实现汉语词性标注器具有重要的理论意义和实用价值。词性标注的方法主要有基于规则方法和基于统计的方法两大类。一般的情况下,为了达到更好的词性标注结果,往往都是采取基于统计和基于规则相结合。在基于统计的方法中,主要是采取隐马尔科夫模型(HMM),而基于规则的方法中系统中主要是采取有限状态转换机(FST)的方法,目前在自然语言处理上的应用上,FST方法在理论上还比较欠缺。在本文中就如何把FST应用到自然语言处理的词性标注上做了详细研究,并最终给出了实现的结果。最近几年来,在国际新一代计算机激烈竞争的影响下,自然语言理解的研究在国内得到了越来越多的重视,研究单位在逐渐增多,研究队伍也在逐渐壮大。目前在国内的研究中比较有代表的研究成果主要有机器翻译、语料库的研究、篇章理解研究、受限汉语研究等。但是不管怎样,所有的研究的前端都必须有词性标注这一项。