论文部分内容阅读
大规模的双语命名实体库可以有效的改进机器翻译、跨语言检索等系统的性能。因而前人提出了很多抓取双语命名实体的方法。早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理新词等问题。随着互联网的飞速发展,大量的网页包含了双语命名实体。并且由于互联网自身的多样性和实时性。以及互联网上的双语命名实体覆盖面非常广泛,而且包含了大量的新词。因此,从互联网上抽取双语命名实体已成为当今信息抽取领域里的一个研究热点。本文提出了一个从大规模网页中抽取双语命名实体的方法。方法主要利用了大规模网页中的冗余信息。首先从大规模网页中抽取符合括弧模式的双语对;再利用中文分词与后缀树结合的方法抽取候选互译对;之后利用基于SVM的分类模型去判断候选互译对是否为正确的双语命名实体;最后利用一套过滤算法对得到的双语命名实体进行有效的过滤;最终得到正确率较高的双语命名实体集合。本文设计和实现了基于上述方法的双语命名实体抽取系统,系统的输入是一个大规模的网页集,集合中所有的网页均为中文网页;输出是中英文的双语命名实体集合。系统分为4个模块:(1)双语对抽取模块;(2)候选互译对抽取模块;(3)双语命名实体对齐模块;(4)噪音过滤模块。双语对抽取模块从大规模网页中抽取符合括弧模式的双语对,并对抽取到的双语对进行噪音过滤、修正、归一化等操作;候选互译对抽取模块,首先对同一英文实体对应的多个中文串进行中文分词,然后根据分词结果利用后缀树抽取候选翻译串,与该英文实体组成候选互译对;双语命名实体对齐模块,将对齐问题转化为分类问题,采用支持向量机分类模型,并利用基于IBM MODELⅠ的翻译质量评测模型和基于感知器的音译模型提供的特征,结合候选互译对在网页中的出现频度、以及在后缀树中的频度等特征,来进行二值分类,从而判断出候选互译对是否为双语命名实体;过滤模块,采用了翻译频度等信息进行了有效的过滤,并抽取出前导词翻译前缀反馈给候选互译对抽取模块。本文的主要贡献有:(1)提出了一套能从大量网页中抽取高质量双语命名实体的方法;(2)有效的利用了已有的方法并进行有机的整合;通过实验证明,综合网页信息抽取、中文分词、翻译模型、音译模型、分类模型、以及后续处理等模块,该框架可以获得比同类方法更好的性能。