大规模网页中双语命名实体挖掘的研究与实现

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:leonzhou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大规模的双语命名实体库可以有效的改进机器翻译、跨语言检索等系统的性能。因而前人提出了很多抓取双语命名实体的方法。早期的方法主要是从平行语料中进行抽取,这类方法存在规模不足、领域局限、不能很好的处理新词等问题。随着互联网的飞速发展,大量的网页包含了双语命名实体。并且由于互联网自身的多样性和实时性。以及互联网上的双语命名实体覆盖面非常广泛,而且包含了大量的新词。因此,从互联网上抽取双语命名实体已成为当今信息抽取领域里的一个研究热点。本文提出了一个从大规模网页中抽取双语命名实体的方法。方法主要利用了大规模网页中的冗余信息。首先从大规模网页中抽取符合括弧模式的双语对;再利用中文分词与后缀树结合的方法抽取候选互译对;之后利用基于SVM的分类模型去判断候选互译对是否为正确的双语命名实体;最后利用一套过滤算法对得到的双语命名实体进行有效的过滤;最终得到正确率较高的双语命名实体集合。本文设计和实现了基于上述方法的双语命名实体抽取系统,系统的输入是一个大规模的网页集,集合中所有的网页均为中文网页;输出是中英文的双语命名实体集合。系统分为4个模块:(1)双语对抽取模块;(2)候选互译对抽取模块;(3)双语命名实体对齐模块;(4)噪音过滤模块。双语对抽取模块从大规模网页中抽取符合括弧模式的双语对,并对抽取到的双语对进行噪音过滤、修正、归一化等操作;候选互译对抽取模块,首先对同一英文实体对应的多个中文串进行中文分词,然后根据分词结果利用后缀树抽取候选翻译串,与该英文实体组成候选互译对;双语命名实体对齐模块,将对齐问题转化为分类问题,采用支持向量机分类模型,并利用基于IBM MODELⅠ的翻译质量评测模型和基于感知器的音译模型提供的特征,结合候选互译对在网页中的出现频度、以及在后缀树中的频度等特征,来进行二值分类,从而判断出候选互译对是否为双语命名实体;过滤模块,采用了翻译频度等信息进行了有效的过滤,并抽取出前导词翻译前缀反馈给候选互译对抽取模块。本文的主要贡献有:(1)提出了一套能从大量网页中抽取高质量双语命名实体的方法;(2)有效的利用了已有的方法并进行有机的整合;通过实验证明,综合网页信息抽取、中文分词、翻译模型、音译模型、分类模型、以及后续处理等模块,该框架可以获得比同类方法更好的性能。
其他文献
伴随着税收信息化管理工作的深度推进,随着金税工程被列为国家电子政务“十二金”工程之一,税收信息化建设得到了长足发展。各级国税系统陆续开发了一系列应用、管理软件,积
脑电图数据分析是脑研究的一个重要研究方法,通过对人脑脑电波信息的分析研究可以发现许多不为我们所知的结果和解释人类行为的一些现象。通过脑电分析还可以掌握人类大脑活
利用激光扫描获取到的深度数据进行场景的三维重建在数字考古、数字娱乐等许多领域都具有广阔的应用前景。近年来随着激光扫描仪成本的降低和激光扫描技术的发展,基于激光扫描
本文从CSCD技术的网络化需求入手,分析Web Services概念体系在协同设计中的作用,将Web Services和CSCD技术应用于变压器结构设计,提出了一种基于Web Services的CSCD在变压器设计中的应用体系结构。在分析协同设计系统架构的基础上,对协同设计的关键技术,如协同感知方法、冲突消解算法等进行了研究,建立了协同设计中支持产品的全域信息模型;同时,对协同设计进行了过程建模。
P2P电子商务在现实生活中发挥了越来越重要的作用。基于P2P的电子商务较之C/S体系下的电子商务,在灵活性、可扩展性、系统健壮性及投入成本等方面都具很强的竞争优势。但在方
图书馆是人们获取知识和信息的主要来源,图书馆的主要宗旨就是全心全意为读者服务。随着信息技术和网络技术的飞速发展,给图书馆的服务带来了新的挑战。为了提高服务质量和工作
本文分析了B/S架构MIS系统的安全需求,研究了MIS页面文件和数据库系统的保护技术。使用信息摘要、数字签名等方法和外挂轮询技术对传统页面保护策略进行了改进,提高了对MIS页
泛化的EBMT(Example-based machine translation)是针对传统EBMT的一种改进方案,它利用翻译模板取代翻译实例,这样既减小了实例库的规模,同时也在一定程度上提高了模板匹配的
随着互联网的发展,网络应用成为了计算机系统应用的研究热点。同时,以P2P为代表的网络结构将网络应用推向新的高潮。本文的主要目的是研究并开发了一套基于结构化P2P网络的多
网基础理论的研究和发展如今已相当的成熟。目前,网在实际应用领域的研究已成为网研究的侧重点了。但传统网理论由于无法处理非确定信息,从而造成网在建模、处理和分析不确定