论文部分内容阅读
术语自动抽取是计算术语学中最重要的任务之一,它的主要目的是从专门领域的文本集中识别出能代表本领域的文本单元的集合,如词语等。术语抽取是自然语言信息处理中的一项基础性课题,在很多领域都有广泛的应用,如自然语言生成、计算词典编撰学、句法分析、语料库语言学的研究、统计机器翻译、信息检索、文本分类、文本摘要等领域。本文首先介绍了领域术语的概念和特征,然后介绍了术语自动抽取的各种方法以及特点,以及术语自动抽取存在的不足之处。本文利用术语的语言特征和统计特征进行术语抽取系统的研究与实现,提出了基于一般词典和种子信息的单个词术语抽取的方法,又提出了如何进行二元术语抽取的算法初步研究,克服了目前术语抽取中存在的一些问题。在香港法律语料库(BLIS)上报告了我们以上方法的实验结果。本文的主要工作包括:①详细介绍了术语的相关概念,术语自动抽取的各种方法及特点,同时向大家介绍了各种语言资源,如中文概念词典(chinese Concept Dictionary,CCD)法律词库及BLIS语料库。②详细介绍了CCD及其建设中的问题,并针对CCD的后期工作的问题提出了自动消除噪音的方法。③提出基于CCD的单个词术语抽取算法,较好地利用词语间语义关系以及双语种子信息,扩充了现有法律词库中单个词术语,也为多词术语抽取提供了良好的素材。④结合术语的语言属性,在传统的统计方法上提出了二元术语抽取算法,较好地弥补了术语自动抽取的问题,同时,为多词术语抽取打下了良好基础。实验表明,本文的思想和算法都是有效且可行的,取得了良好的效果。同时正在研究开发可实用的程序来提高术语抽取工作的进展,本文的方法和结论可以为术语自动抽取工作的研究提供参考。