基于知识自动获取的无指导译文消歧方法研究

被引量 : 0次 | 上传用户:YCY8899
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
这是个互联网的世界,使用高效的搜索引擎在互联网获取信息已经成为当代人们获取信息的最重要手段。在日益国际化的信息中,不同种语言之间的理解与处理一直存在着难以逾越的鸿沟,这就形成了人们对机器翻译、跨语言信息检索与处理的迫切需求。目前对此研究仍有诸多难题亟需解决,其主要之一就是,如何为源语言多义词选择语义正确对应的目标语译文词汇的问题,称之为译文消歧。译文消歧及与之相似的在单语范畴内的词义消歧一直是自然语言处理领域基础研究课题,它也是自然语言处理技术的重点和难点之一。针对译文消歧及词义消歧的现状,通过对各类无指导消歧方法的比较分析,本文认为,目前无指导译文消歧的关键问题是消歧知识的自动获取与利用、克服数据稀疏及双语语义词典建设。因此,本文没有在机器学习算法、消歧特征选择等问题上做过多的研究与探讨,而是充分关注与挖掘无指导译文消歧方法中最核心的内容——知识获取,利用这些消歧知识来完成无指导译文消歧任务,同时克服数据稀疏问题。由此思想出发,本文提出了一系列逐步递进的无指导译文消歧知识获取以及消歧的创新方法,这些创新方法均利用了国际标准语义评测语料进行评测与对比分析,并均超过了以往可比较的最好无指导系统。最后,本文还进行了另一个关键问题的研究,即双语语义词典的自动构建。本文具体研究内容包括以下几个方面:1.自动获取带标记目标语语料,并直接形成译文消歧模型,提出利用该模型进行译文消歧的方法。在此基础上,提出了等价伪译词概念以及等价伪译词的构造方法,并以此实现无指导的译文消歧。最后在国际语义评测数据集Senseval-2 ELS上进行了实验与比较;2.通过对双语语料库间接关联的观察,提出利用双语词汇间接关联度的完全无指导译文消歧方法。在计算间接关联度的过程中充分利用了Web资源,设计了Web的词汇间接关联度(Web_IA)的计算方法,在消歧过程中利用了三种不同的决策方法进行决策。随后,针对基于间接关联方法的不足,本文将整个Web视为语义词典,直接利用Web进行双语词汇语义相关度(WBR)的定义分析以及计算。经过对WBR方法在一个经改造处理的标准语义相关度测试集上的比较实验,证明该方法可行后,设计了基于WBR的完全无指导译文消歧方法,并在同一个国际标准语义评测数据集Semeval2007上的task5与基于Web_IA方法做了详细的对比实验;3.通过对歧义词同义词集合内词汇语句序列的观察,提出了一种基于Ngram语言模型以及Web挖掘的无指导译文消歧方法。该方法认为歧义词不同词义所对应的N-gram语言模型模式不同,且利用的是语言模型知识而非语义知识。随后在同一个标准集上的对比评测表明,该方法取得了极为优异的性能。性能超过了该任务可比较最好无指导系统TorMD12.8%(Pmar值),最后,还进行了基于语言模型的方法与基于语义模型的方法的详细比较及性能上限的讨论;4.研究了利用WordNet、HowNet以及大规模双语平行语料库自动生成面向译文消歧的的双语词典的方法。该方法充分利用大规模平行语料库内丰富的词汇对齐知识以及各项统计信息,利用WordNet及HowNet语义资源的相似度计算,形成了一部同时带有双语语义信息及语料库统计信息的词典。综上所述,本文基本上给出了面向知识自动获取的无指导译文消歧的一整套解决方案,特别是其中基于Web的各种方法,为自然语言处理中的难题之一——译文/词义消歧,在基于Web搜索的研究思路上进行了初步探索。
其他文献
<正>植物和菌类能利用保守的RNA干扰机制来互相调节基因表达,科学家认为可以利用这一现象创造出新一代的杀虫剂。我们听不到植物的任何声音,但植物却保持着与周围环境的持续
<正>俗话说:医生的嘴,护士的腿,一个说,一个跑。实际上,医护关系绝非如此简单,面对同一个患者和同一个病种,医护关心的角度各有侧重,是互异的,又是互补的。有人说,医护之间本
目的 采用HPLC.ELSD法测定黄芪中黄芪甲苷的含量。方法 HPLC-ELSD法,汉邦C18柱(4.6mm&#215;150mm),流动相:乙腈-水(40:60),流速:1.0ml;ELSD参数:漂移管温度:105℃,载气流速为2.8L&#183;min^-1。
枣树是我国比较常见的经济树种,鲜食枣具有非常强的食用和药用价值,是我国经济树种的重要组成部分。当前,鲜食枣逐渐成为我国农业经济增长中的经济作物产品,对幼苗的需求量大
枣树是辽西地区重要的经济林作物。通过对5种枣树幼苗采用综合栽培技术,研究了其光合指标特性变化。结果表明,对5种枣树幼苗采用综合栽培措施后,其叶绿素含量均显著提升;在光
近年来,滨海旅游如火如荼,滨海旅游区成了人们外出休闲的重要目的地。滨海旅游空间作为开展滨海游憩活动的重要场所,成为旅游区开发建设的重点,由此对海洋生态带来的巨大威胁
语音识别是一门交叉学科,涉及信号处理、计算机技术与数学模型,正逐步成为信息技术中人机接口的关键技术,语音技术的应用已经成为一个具有竞争性的新兴高技术产业。语音识别
有明诗歌,自明人即已着手进行整理和总结,嘉隆间有李攀龙《明诗选》。入清后又有陈子龙《皇明诗选》、钱谦益《列朝诗集》、王夫之《明诗选》、朱彝尊《明诗综》。目前明诗研
面对广泛而复杂的环境问题,囿于政府财政及人力资源的有限性,制定与实施环境政策无疑是政府实施环境保护的最佳手段。为了应对我国的环境问题,我国也出台了大量的环境政策。
侵袭性(Invasion)和转移性(metastasis)是恶性肿瘤的主要特征,也是目前肿瘤研究和治疗中的重点和难点。肿瘤的侵袭转移是一个多步骤,多阶段的复杂过程,与肿瘤细胞的运动性、