基于最大熵原理的汉语词义消歧与标注语言模型研究

来源 :北京机械工业学院 北京信息科技大学 | 被引量 : 0次 | 上传用户:lideqiang163com
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧一直是计算语言学领域的一个重要研究课题,对机器翻译、信息检索、内容和主题分析、文本分类、语音识别等领域有着重要的影响,可以帮助解决语言信息处理中的一系列理论和实践难题。 最大熵模型是一种基于统计的机器学习模型,提供了一种分类的方法,成功地运用在自然语言处理的许多领域,并得到了较好的结果。 本文以北京大学计算语言学研究所开发的较大规模人民日报词义标注语料为基础,从以下几个方面进行了研究: 论述了多义词上下文包含的各种特征信息如显性信息、半显性信息、隐性信息以及如何提取这些信息。 结合《现代汉语语法信息词典》、《现代汉语语义词典》和知网等资源,探讨了多知识源的知识融合技术与方法,并在此基础上,研究从融合知识源中获取词义消歧知识的技术以及构建相应的词义消歧知识库,解决因训练语料不足而导致知识匮乏或数据稀疏问题。 设计并实现了一个面向汉语词义自动标注研究的实验平台,在该实验平台中,在“基于归纳学习的统计与规则相结合的排歧模型”和“最大熵排歧模型”下,对《现代汉语语法法词典》中的802个多义词进行了词义标注,这种对大量多义词的词义标注是以前的研究中没有出现的。实验表明最大熵模型的正确率较高,体现了最大熵原理的优越性。
其他文献
随着计算机网络的发展,信息安全问题已变得日益重要。信息的安全性已经不是仅仅依赖一个好的加密算法就可以得以解决的问题,它需要综合的安全理论、安全措施和安全技术来保证
人类社会正进入一个信息社会,社会经济的发展对信息资源、信息技术和信息产业的依赖程度越来越大。身份认证技术是保障信息安全的有效手段,是最基本的安全服务,其它的安全服
无线传感器网络(Wireless Sensor Network, WSN),综合了传感器技术,嵌入式计算技术,无线通信技术和分布式信息处理技术等,以其广阔的应用前景引起了国内外众多研究人员的重视
目前,企业工作流技术的研究成果未能有效满足企业工作业务发展的需求,在企业过程工程从理论到实践再到理论再指导实践的发展过程中,企业工作流技术研究正处于实践到理论的提
中国书画水墨的计算机仿真研究,是计算机图形学和中国书画艺术发展的交汇点,无论在科学还是在艺术层面,都有着深远的意义和影响。用计算机模拟绘制各种艺术风格的图像也是计算机
水电仿真软件是一个大型综合的实时仿真系统,能够真实地反映了整个电站的运行工况,实现在多种工况下的机组启动、停机和正常运行的监视及操作。水电仿真软件采用纯粹的软件方
信息技术的迅速发展使数据库的应用得到了极大的普及,数据库管理系统作为数据库存储和处理数据的核心软件,实现了更有效和更安全的创建、管理和保存大量的数据,其实现中的各
随着计算机和网络的普及,计算机系统和网络的安全问题日益突出。入侵检测是解决网络安全问题的主要方法之一。入侵检测分为基于误用的方法和基于异常的方法。异常检测是检测任
基于内容的图像检索(Content-basedImageRetrieval,简称CBIR)技术近年来得到了快速发展,现已广泛地应用于图像处理、计算机视觉和商标图像数据库等领域。该技术主要是利用图像
人类为了更深入地了解和认识自身,制定了宏伟的人类基因组计划。随着人类基因组计划的顺利实施,生物实验技术也在日新月异地进步,微阵列芯片技术正是其中最有代表性的一种。