自然语言理解在蒙古文自动文摘中的研究

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:wqhao2
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet网络的迅速普及成为信息时代的重要标志,面对潮水般涌来的电子文献,以全文阅读的方式来搜寻所需资料,显然是低效率的。更为关键的是,人的阅读速度远远跟不上文献的增长速度。因此,通过阅读文摘来获取有用的资料是一种有效途径。 目前,蒙古文的文字处理研究基本成熟,对蒙古文自然语言理解的研究才刚刚起步,这就使得蒙古文信息化进程与蒙古族人民的需要及互联网的发展存在着巨大差距。理解型蒙古文自动文摘的研究将大大方便蒙古族人民使用蒙古文电子资源,对蒙古文信息化进程起着巨大的推动作用。 针对上述情况,作者在北京邮电大学智能技术研究中心的理解式中文自动文摘研究基础之上,结合了作者所在工作单位对蒙古文信息处理的研究工作,提出了基于全信息的自然语言理解在蒙古文自动文摘中研究的题目,使得蒙古文自然语言处理在新的研究领域中得到了尝试。 论文内容分为三大部分: 第一部分对目前的自动文摘技术作了概括性介绍,并较为详细的介绍了理解型中文自动文摘系统LADIES。 第二部分是本论文所依赖的理论知识,其中详细介绍了基于全信息理论的自然语言理解方法的基本原理,指出全信息自然语言理解方法的特色是把“基于规则”和“基于统计”两种方法有机地结合起来,增强对自然语言的理解能力;同时,对修辞结构理论(RST)进行了深入研究,介绍了它在自然语言理解中的篇章理解作用,由修辞关系来决定文摘句的筛选,对蒙古文来讲不失为一种好的方法。 第三部分是本论文的核心部分,它描述了一个蒙古文文摘系统的实现过程。首先通过人工和计算机结合的方法构建了一套面向蒙古文文摘的全信息词典;然后通过RST分析把文摘候选句以及它们之间的修辞关系保留下来;接下来用基于全信息的自然语言分析方法对文摘候选句作进一步理解,提取出文摘句;最后用基于模板的自然语言生成方法,连同候选句之间的修辞关系生成一个准确、流利的文摘。在设计过程中一直贯穿着语法、语义、语用分析三者相结合的思想。从功能的角度看,实现过程可划分成4个模块:文本预处理模块、修辞结构分析模块、文摘句计算模块、文摘生成模块。系统充分发挥了语用信息的高层制导功能,从而有利于生成高质量的文摘。
其他文献
图像分割是连接低级视觉和高级视觉的桥梁。然而分割因其不适定性,成为阻碍计算机视觉发展的瓶颈问题之一。因此,几十年来图像分割始终是计算机视觉中的一个研究热点。人们希
期刊
期刊
随着信息技术特别是网络技术的发展,电子媒体的传播极为迅捷,人们越来越容易获取数字多媒体信息,与此同时,数字多媒体信息的版权、保密等问题也变得日益突出起来,因此,多媒体
长期以来,平面四连杆机构的轨迹设计一直是机构学中的一个研究热点,相关的设计方法很多,图谱法是其中最为直观和较为有效的一种设计方法。本文主要介绍了以数学形态学形状谱和形状参数为特征谱,结合人工神经网络实现平面四连杆机构综合的快速实现方法。 为了获得目标曲线较为理想的轨迹机构,本文通过数学形态学与图像处理分析相结合的方法,分别提取平面四连杆曲线的数学形态学形状谱和四个形状特征参数,然后一起组成连
随着现代无线智能终端的高速发展,迅猛增长的无线宽带通信的需求同紧缺的无线电频谱资源之间的矛盾日益突出,并且固定管控频谱资源的模式更加剧了这种矛盾,如何有效的利用频谱资
我们知道Hash函数的是密码学和信息安全领域中的一个非常重要的基本组成部分,但,自从以MD5为代表的MDx系列Hash函数被我国学者王小云等人破译后,关于Hash函数的研究又重新回
期刊
期刊
期刊