论文部分内容阅读
术语,作为专业知识的集中载体,它的创建、普及和消亡,动态展现了一个学科的发展、演变历程。专业术语数据库作为一种知识源,能够为各类研究人员便捷地获取专业知识提供重要支持。术语自动抽取是构建专业术语库的关键技术,同时也是自然语言处理领域中的一项基本课题,为包括机器翻译、文档摘要、信息检索、文本分类、词典编纂等在内的诸多自然语言研究起到支撑作用。本文突破了名词短语的限制,接纳更多非名词性结构的专业术语,拓宽了语言规则。结合实证分析和机器学习策略,分别从结构完整性、领域相关度和词语搭配三个方面展开研究,主要工作包括:1.以词为最小语言单位,构建一个涵盖四万余条计算机专业术语的数据库。针对不同长度术语的分布特性,结合机器学习方法从多角度提炼出术语结构的词法特征。丰富语言规则的同时,扩大了规则覆盖面,提高术语抽取的召回率。2.针对单词型术语结构简单,边界清晰的特征,提出一种基于模糊聚类的识别算法。将术语识别过程成功转化为二值分类任务,无需专业辞典和诸多语料库的支持,实现单词型术语的自动聚合标注。3.不同于已有方法中采用单一父串到多子串的归并策略,本文从单一子串与多父串之间的逆向映射关系出发,提出了一种基于独立性统计的子串归并算法,以此判断候选术语的结构完整性。实验表明,在O(n)的时间内,该算法不仅可以删除普通子串,还能有效过滤由公共子串造成的干扰,将候选术语集有效缩减29.44%。4.以非名词性词语的构词能力为研究对象,提出了“词汇活跃度”(Word Active Degree, WAD)的概念。同时结合词汇间粘合度,分析短语内部词语的搭配特征,过滤掉非良性搭配和局部成分过分活跃的短语。实验表明,采用WAD作为词语搭配评判标准,对由动宾短语和介词短语引发的错误有较强的识别能力,正确率高达99.97%。5.根据术语和非术语在语料库中变化趋势的分布差异性,结合局部及全局特征,提出了一种基于分布变化特征的领域相关度计算方法。实验表明,该方法不仅能够大幅降低计算复杂度,还可以显著提升低频术语和基础术语在输出结果中的排序。