论文部分内容阅读
领域术语自动抽取是自然语言处理中的一项重要任务,特别是中文术语的自动抽取是中文信息处理的一项基础性的课题,术语抽取可以应用到领域本体构建、专业搜索、文本分类、类语言建模等诸多领域中,为进一步细致处理自然语言研究的各个问题,构建一个领域术语自动获取系统是十分重要的。 本文分析了目前已有的术语抽取技术,结合汉语术语的特点,提出了一种从原始未切分文本中自动抽取领域术语的方法。主要研究工作如下: 第一,本文对汉语术语的抽取进行了一定的研究,并对统计模型和规则模型进行了分析和比较,设计了一个统计方法和规则方法相结合的汉语专业领域术语抽取算法,并具体实现了领域术语的抽取。该方法将规则模型和统计模型有机的结合起来,避免了单纯使用一种方法进行术语抽取的局限性,有效地实现了领域术语的抽取。 第二,系统在用统计方法抽取候选术语之前,利用规则的方法对要处理的文本进行了预处理,主要包括仿词处理、标点符号和停用字的过滤。实验证明,这对于提高整个系统的效率是有帮助的。 第三,本文比较分析了已有的统计参数的优缺点,提出了用信息熵和似然比两个统计参数结合进行领域术语的抽取的算法。实验结果表明,把这两个统计参数结合起来可以充分发挥两个参数的优点,取得了较好的效果。 第四,本文利用通用词典过滤掉高频通用词汇并用置信度的方法对最后的候选术语进行过滤筛选,过滤掉候选术语中很多没有意义的字符串,进一步提高了领域术语抽取的准确率。 本文的领域术语的抽取系统既不需要分词及词性标注,也不依赖于专业词典,不限于某一个领域,不需要语料库训练,操作简单且易于实现。该系统对计算机领域和金融领域两个领域的语料进行了实验,并对计算机领域的抽取结果进行了分析,其中候选术语抽取的准确率为72.8%,实验结果表明,利用论文中提出的方法可以准确有效地抽取出特定领域的专业术语。