基于农业知识处理平台的汉蒙词语对齐技术

来源 :中国科学技术大学 | 被引量 : 0次 | 上传用户:song0719
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词语对齐是跨语言自然语言处理领域的一个基本问题,许多基于双语语料库的应用(女NSBMT、EBMT、WSD、词典编纂)都需要词汇级别的对齐。 以往词语对齐方法对语言学信息在对齐中的作用的研究都不够深入。本文重点研究利用由多种语言学资源或信息来改善对齐质量。在统计对齐模型主要是IBM词语对齐方法研究和实践的基础上,提出了一个最大熵词语对齐算法。最大熵双语词语对齐不需要具有大规模的语言学知识。各种参数的训练是与具体的语言对无关的,即使对于像中文与蒙文这样的句法结构相差比较大的语言对之间的对齐系统的构建来说也是一样。训练参数的获取和调整并不依赖具体的语言学知识。在最大熵的思想应用于统计词语对齐之后,针对不同的语言可以加入具体的调整模型,这些与具体语言有关的调整模型的加入,并不影响基础的统计词语对齐,所以可以通过语言学专家的对立工作来进行,之后将这些附加的模型加入到系统中来。经过500句汉蒙测试集实验,对齐错误率为31.2%。 为了得到蒙文词性标注模型,提出了改进的基于转换的拉丁蒙文词性标注方法。针对传统基于转换的词性标注方法中规则学习速度过慢的问题提出了一种对训练语料库进行动态划分的算法。该算法根据规则之间的冲突和依赖关系对训练语料库进行动态划分,减小了搜索空间。在保证拉丁蒙文词性标注正确率的前提下提高了规则学习速度。经过一万拉丁蒙文句子语料库的对比测试,发现该方法在规则学习中所花费的时间仅为原方法的32%。
其他文献
随着工业自动化的日新月异,作为同位素仪表的一个分支,γ射线测厚仪在工业在线生产测量中也越来越多地发挥着重要作用。γ射线测厚仪由γ放射源、探测器、γ射线测量仪表三部分
碱回收是造纸厂处理黑液的有效方法,碱回收过程分为燃烧、蒸发和苛化三个工段,它们属于复杂的工业过程,具有复杂性、非线性、大时滞、强耦合和参数检测困难等特点,而且人们对控制
在机器视觉、模式识别及图像处理中,人脸识别一直是最受关注的研究之一,其应用领域很广泛,如安全验证、身份鉴别、监控系统、信用卡验证、人机交互控制、证件核对、通道控制
作为整个电力系统结构组成中的重要组成部分--供配电系统,其任务就是对用户所需电能的供应和分配。供配电系统工作完成的好坏将直接影响到用户的电能使用,因此,保证电能使用过程
人体皮肤是身体内部与外界的天然屏障,能否通过对皮肤生理参数的测量来准确地掌握人体机能的变化是当今医学界的一个重大研究课题。所以测量人体皮肤指标,分析人体可能患有的病
随着科学技术的发展,机器人的应用越来越广泛。然而,大部分的机器人只是为特定的工作环境而开发的,一些更多、更加复杂的任务需要多个机器人的协作才能完成,每个机器人都有自身擅
磁共振成像(Magnetic Resonance Imaging,MRI)系统是目前最先进最昂贵的医学诊断设备之一。谱仪是其中的关键部件,价格昂贵。目前国内已有多家磁共振系统集成商,但MRI谱仪技术仍
近年来,复杂网络受到来自物理、生物、数学、计算机、经济等不同学科领域的研究者越来越多的关注,已经成为一个研究热点。利用统计分析方法,结合计算机模拟仿真技术,本论文对复杂
个性化信息服务旨在解决按照用户的需求传递信息的问题。随着信息科学与技术的发展,信息已经渗透到人们生活的各个方面。移动电话的普及和移动数据业务的发展带来了移动网络信
国际EPC总承包项目,即设计—采购—施工(Engineering,Procurement and Construction),是一种由承包商进行全部设计、采购和施工,提供一个配备完善的设施,转动钥匙(Turn key)即可运