基于农业知识处理平台的汉蒙词语对齐技术

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户：song0719

【摘要】

：

词语对齐是跨语言自然语言处理领域的一个基本问题，许多基于双语语料库的应用(女NSBMT、EBMT、WSD、词典编纂)都需要词汇级别的对齐。以往词语对齐方法对语言学信息在对齐

【作者】

：

胡冠龙

【机构】

：

中国科学技术大学

【出处】

：

中国科学技术大学

【发表日期】

：

2007年期

【关键词】

：

词语对齐最大熵词典模型词性标注模型自然语言处理双语语料库

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

词语对齐是跨语言自然语言处理领域的一个基本问题，许多基于双语语料库的应用(女NSBMT、EBMT、WSD、词典编纂)都需要词汇级别的对齐。以往词语对齐方法对语言学信息在对齐中的作用的研究都不够深入。本文重点研究利用由多种语言学资源或信息来改善对齐质量。在统计对齐模型主要是IBM词语对齐方法研究和实践的基础上，提出了一个最大熵词语对齐算法。最大熵双语词语对齐不需要具有大规模的语言学知识。各种参数的训练是与具体的语言对无关的，即使对于像中文与蒙文这样的句法结构相差比较大的语言对之间的对齐系统的构建来说也是一样。训练参数的获取和调整并不依赖具体的语言学知识。在最大熵的思想应用于统计词语对齐之后，针对不同的语言可以加入具体的调整模型，这些与具体语言有关的调整模型的加入，并不影响基础的统计词语对齐，所以可以通过语言学专家的对立工作来进行，之后将这些附加的模型加入到系统中来。经过500句汉蒙测试集实验，对齐错误率为31.2％。为了得到蒙文词性标注模型，提出了改进的基于转换的拉丁蒙文词性标注方法。针对传统基于转换的词性标注方法中规则学习速度过慢的问题提出了一种对训练语料库进行动态划分的算法。该算法根据规则之间的冲突和依赖关系对训练语料库进行动态划分，减小了搜索空间。在保证拉丁蒙文词性标注正确率的前提下提高了规则学习速度。经过一万拉丁蒙文句子语料库的对比测试，发现该方法在规则学习中所花费的时间仅为原方法的32％。

其他文献

基于NiosⅡ的γ射线厚度测量仪表的研究与设计

随着工业自动化的日新月异，作为同位素仪表的一个分支，γ射线测厚仪在工业在线生产测量中也越来越多地发挥着重要作用。γ射线测厚仪由γ放射源、探测器、γ射线测量仪表三部分

学位

γ射线测厚仪测量仪表软核处理器数据采集厚度测量

碱回收过程控制系统集成及苛化工段BP神经网络操作优化

碱回收是造纸厂处理黑液的有效方法，碱回收过程分为燃烧、蒸发和苛化三个工段，它们属于复杂的工业过程，具有复杂性、非线性、大时滞、强耦合和参数检测困难等特点，而且人们对控制

学位

碱回收苛化工段BP神经网络控制系统造纸黑液处理过程控制

照片/素描及跨年龄阶段异质人脸的识别研究

在机器视觉、模式识别及图像处理中,人脸识别一直是最受关注的研究之一,其应用领域很广泛,如安全验证、身份鉴别、监控系统、信用卡验证、人机交互控制、证件核对、通道控制

学位

异质人脸识别素描与照片转换零判别空间差空间支持向量机

面向供配电系统设计型式化方案的决策研究

作为整个电力系统结构组成中的重要组成部分--供配电系统，其任务就是对用户所需电能的供应和分配。供配电系统工作完成的好坏将直接影响到用户的电能使用，因此，保证电能使用过程

学位

供配电系统电气主接线设计模糊多属性决策综合评价指标可靠性

基于DSP/BIOS的人体皮肤测量系统的研究

人体皮肤是身体内部与外界的天然屏障，能否通过对皮肤生理参数的测量来准确地掌握人体机能的变化是当今医学界的一个重大研究课题。所以测量人体皮肤指标，分析人体可能患有的病

学位

皮肤测量DSP实时操作系统DSP/BIOS

基于CORBA中间件技术的异构机器人互操作系统的研究

随着科学技术的发展，机器人的应用越来越广泛。然而，大部分的机器人只是为特定的工作环境而开发的，一些更多、更加复杂的任务需要多个机器人的协作才能完成，每个机器人都有自身擅

学位

异构机器人互操作中间件CORBATAO

一种新型磁共振谱仪的软件设计和序列实现

磁共振成像(Magnetic Resonance Imaging，MRI)系统是目前最先进最昂贵的医学诊断设备之一。谱仪是其中的关键部件，价格昂贵。目前国内已有多家磁共振系统集成商，但MRI谱仪技术仍

学位

磁共振成像谱仪控制台软件设计医学诊断设备数字化谱仪

复杂网络系统结构与动态特性分析研究

近年来，复杂网络受到来自物理、生物、数学、计算机、经济等不同学科领域的研究者越来越多的关注，已经成为一个研究热点。利用统计分析方法，结合计算机模拟仿真技术，本论文对复杂

学位

复杂网络拓扑结构动态特性抗攻击能力稳定性

移动个性化服务系统研究——体系结构及内容表示研究

个性化信息服务旨在解决按照用户的需求传递信息的问题。随着信息科学与技术的发展，信息已经渗透到人们生活的各个方面。移动电话的普及和移动数据业务的发展带来了移动网络信

学位

移动信息服务个性化推荐分类分析K-近邻贝叶斯移动终端离线浏览系统

基于博弈理论的国际EPC总承包项目风险控制研究

国际EPC总承包项目，即设计—采购—施工(Engineering，Procurement and Construction)，是一种由承包商进行全部设计、采购和施工，提供一个配备完善的设施，转动钥匙(Turn key)即可运

学位

国际工程项目EPC总承包博弈理论风险管理协同理论

基于农业知识处理平台的汉蒙词语对齐技术

其他学术论文