论文部分内容阅读
在中文信息处理中,对于并列短语的功能标注多采用直接提取并列项功能标记的方法,这种处理方法在面对并列项为不同功能类的并列短语时遇到了一定的麻烦。一些语言学家认识到,不同功能类型的并列短语对连词有着不同的需求。而本文反其道行之,以“和”、“与”、“及”、“并”、“而”五个并列连词为纲分类考察并列短语的功能类型,以期为并列短语的功能标注提供规则知识。
本文采用定量与定性相结合的研究方法,确定了根据句法功能的优势分布判定短语功能类的原则,而优势分布是基于对《人民日报》(1998年1月)标注语料库中相关用例句法功能分布的考察分析。
对于由“和”、“与”、“及”构成的并列短语,主语和宾语是其优势分布,本文将其大致归约为np,并给出了这类短语出现在状中结构的中心语、述语及谓语句法位置的约束条件。
由“并”构成的并列短语,谓语是其占优势的句法功能分布,据此本文确定其为vp;定语和谓语是由“而”构成并列短语的优势句法分布,我们将这类短语确定为ap。对于上述两类并列短语我们都对其各种句法功能进行了细致的探讨,并进行了相关歧义格式的研究。
本文获得的关于带标记并列短语的规则知识在语料库的多级加工、汉语句法树库的构建以及现代汉语的虚词知识库建设中都有一定的作用。