论文部分内容阅读
语义重合是日常生活中常见的一种现象,尤其在我们的语言中。这种现象给日常交际带来了很大困扰,已经成为自然语言研究中的一个难题。为了解决这个难题,我们首先应该确定词的语义。语义确定是信息检索、机器翻译、文本分类、语音识别以及人机交互诸多领域中的关键环节,已经在信息理论、人工智能和一些其他的自然科学和技术领域中取得了令人瞩目的进步。尽管语义确定已取得了很大发展,但目前语义确定的对象主要集中在普通动词、名词和形容词上,在英语情态动词方面的研究很少。情态表达说话人的意见和态度,主要由情态动词来实现。因此,正确识别情态动词的语义对理解和领会说话人的意见和态度十分重要。本文通过对一百万字语料库的标注、统计和分析,首先提取了can的六个语言特征,包括两个语义特征和四个句法特征,其中一个句法特征和两个语义特征共同作为实验的三组数据,最后采用模糊c均值聚类的方法,从而构建出能在语义重叠的情况下确定情态动词can语义的模型。实验结果表明,该模型达到了95%的正确率。实验结果同时也给出了情态动词can的两个意义的分布状况。研究发现,当在肯定句中,或当主语有生命时,或主语有内在能力做某事时,can倾向于“能够”的语义。当在否定句中,或当动词为表状态的动词时,或当动词为行为动词,而且动作可能将来发生时,或当主语无生命时,can具有“可能”的语义。在此基础上,本文又把两个语义特征分别和其余三个句法特征结合起来建立了三个新的模型,并将这三个新模型的聚类结果与先前建立的模型聚类结果进行了对比,结果表明,语义信息特征对确定情态动词语义的影响大于句法信息特征的对其的影响。其中,情态动词can与其后的动词的互信息特征、情态动词can与主语的互信息特征和否定特征是影响情态动词can语义的最重要的三个特征。成功聚类模型,不仅有助于在语义重叠的情况下确定情态动词can的语义,而且还有助于实现语料库的自动语义标注,减轻研究人员的负担,更有助于提高机器翻译的质量。本文研究结果为情态动词语义学研究和语义排歧研究提供了有利的依据,也为情态动词自然语言处理中的特征选择提供了有利的依据。