论文部分内容阅读
本文的研究工作是围绕综合型语言知识库建设展开的,包括两部分:综合型语言知识库系统原型的开发与中文缩略语知识库建设。
北京大学计算语言学研究所(ICL/PKU)十多年来积累了大量的语言资源。由于各个资源是独立开发的,使得逻辑上原本联系紧密的各个资源之间交叉参照困难,且无法方便地进行知识挖掘。为解决这些问题,需先填平各项资源之间的“缝隙”,然后将这些资源放在同一平台上,使得它们可以方便进行交叉参照;同时建立数据挖掘软件,发现新知识,也就是建设综合型语言知识库系统。本文首先介绍了综合型语言知识库系统原型实现的规划和步骤,然后介绍了为填补各项资源之间缝隙而建设的部件词库及词类标记集转换表,最后详细介绍了综合型语言知识库系统原型主体部分的建设。
缩略语是自然语言语汇的重要组成部分,缩略语研究也是自然语言处理的一个重要课题。本项研究的最终目标是探索中文缩略语的规律,包括缩略语的生成和还原。本文的工作旨在建设计算机自动处理中文缩略语所需的知识库。利用北大计算语言所的两大基础语言资源《现代汉语语法信息词典》和“大规模基本标注语料库”,建设了中文缩略语知识库,收录了八千条缩略语及其对应的全称,提出了面向信息处理的中文缩略语分类框架,完成了相当数量的缩略语归类,并根据计算机自动处理缩略语的需要建设了缩略语.全称对1的特征词自动提取程序,为缩略语库知识库中每一个缩略语.全称对自动填写特征词。
本文研究得到国家973课题“文本内容理解的数据基础(2004CB318102)”和ICL/PKU与香港大学语言系签署的关于中文简称合作研究项目的支持。