论文部分内容阅读
由于科技的进步,社会的发展,新概念、新事物不断涌现。这些新概念与新事物产生以后,必定要用一个术语来指称它,由此大量的术语融入语言词汇的集合之中。统计表明术语在语言词汇中所占的比例逐年增加,术语学的研究也越来越受到有关学者的重视。对这些术语进行深入系统的研究不但从语言学的角度上来说是必要的,而且从语言信息处理的角度来说,也具有实际的应用意义。 我们正处于一个网络飞速发展,信息激增的时代,如何从信息的海洋中高效地获取到需要的知识是一个亟待解决的问题。搜索引擎方便了人们的查询需求,但是针对查找术语释义这样一个特定的问题,搜索引擎却无法提供高效、便捷的查询服务。 在这样的背景下,本文提出了下述研究课题: 1.关于什么是术语的可操作性界定; 2.面向大规模文本的术语定义抽取方法; 3.术语定义的领域聚类方法: 4.术语定义抽取基础上的术语识别方法。 本文的研究以八千三百万字的涉及27个领域的包含328158条术语的术语数据库为术语专业语料,该数据库中的每条术语都有定义解释,同时以7年的人民日报为普通语料进行统计,在此基础上针对术语定义抽取、术语识别以及术语定义聚类进行考察。 本文的研究特色主要包括: 1.什么是术语的可操作性界定。从语言信息处理的角度出发,提出一种对于“术语”的界定:在某种程度上,术语就是被定义项,即术语是带定义性描述的词或词组。这种对术语的界定将术语与术语定义结合起来,将术语和普通词语区分开来,并且具有可操作性。 2.术语定义抽取方法。使用“规则”+“统计”的方法从真实文本中抽取出术语定义。通过考察术语定义用词与人民日报用词的不同,提出词语的“定义隶属度”和句子的“定义隶属度”的概念。由术语定义的匹配规则与排除规则提取候选定义,通过计算句子的定义