基于统计的中文词义消歧技术研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shundok
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词义消歧(Word Sense Disambiguation, WSD)是计算语言学和自然语言处理领域一个重要的研究课题,也是近些年来该领域的热点研究问题之一。本文研究的重点在于统计词义消歧技术,它根据使用的训练方法的不同可以分为有指导和无指导的两大类。早期的词义消歧研究以基于知识的和有指导的机器学习方法为主,随着计算技术和存储技术的改进和提高,无指导方法受到的重视程度越来越高。本文研究内容包括以下三个方面:1.介绍资源建设的情况。这部分包括IR-Lab分类词典的建设和语料库的建设两个方面。IR-Lab分类词典的建设对语料库的建设以及等价伪词的构造提供了很大的帮助。2.考察了贝叶斯模型、最大熵模型、支持向量机和决策树模型等四种数学建模方法在词义消歧上的应用效果。通过各个模型的比较研究,发现贝叶斯模型和最大熵模型性能比其它几个模型更为理想,尤其是贝叶斯模型,在构建和实现上比其它几个模型相对要简便易用,机器学习过程也简洁高效。3.提出等价伪词概念和等价伪词的构造方法,并以此实现无指导的词义消歧方法。利用得到的两种较优的机器学习方法:贝叶斯模型及最大熵模型,本文尝试了基于等价伪词的无指导词义消歧方法,在Senseval-3的测试数据上获得了81%的正确率,明显优于相应的有指导方法。实验表明等价伪词的概念以及建立在等价伪词基础上的无指导词义消歧技术为探索词义消歧的新技术提供了一个新的思路和方法。综上所述,本文在机器学习和无指导的词义消歧方法上都作了一些有益的尝试,取得了一些初步成果。随着更多研究人员的投入和对词义消歧研究的不断深入,会涌现出更多更好的新方法、新技术。
其他文献
特征选择是数据挖掘、机器学习的一个基本问题。过去十几年来,许多度量手段被用来度量特征的重要性,众多研究成果相继诞生。其中,互信息作为一种非线性、无量纲的度量标准被广泛
学位
近些年来,FPGA已经成为现代电子、半导体行业的最重要组成部分之一,针对FPGA的综合技术的研究是电子设计自动化技术的重要研究方向。逻辑综合是FPGA综合的重要步骤,它包括逻辑优
摩尔定律预示着未来计算机必将迎来多核时代,随着片上集成的计算节点或者存储节点的增多,传统的片上互联技术难以适应未来需求,片上网络是一种具有高带宽以及良好可扩展性的
不论从理论上还是从实践上看,Web开发技术的研究都变得日益重要。然而,开发Web应用仍然面临诸多挑战,比如:如何使数量众多的开发人员在开发过程中有效地合作,如何使开发的应
随着Wi-Fi和移动设备的普及,基于Wi-Fi的室内定位受到了越来越多研究者的关注。接收信号强度指示(RSSI)作为一种主流的方案常用于基于测距的定位系统和指纹定位系统。近年来,
随着信息技术在管理上越来越深入而广泛的应用,管理信息系统的实施在技术上已逐步成熟。管理信息系统是一个不断发展的新型学科,任何一个单位要生存要发展,要高效率地把内部
随着现代信息应用系统信息量的增大,数据库已逐步成为计算机信息系统和计算机应用系统的基础和核心。对于大多数数据库应用系统而言,在运行一段时间后,系统的整体性能会下降,主要
网络规模的急剧扩展和网络复杂度的日益提高,要求网管系统必须提高信息收集、处理、储存、应用、传递和共享的效率,同时对包含有资源信息采集、资源信息处理等功能的网络资源管
安全方面的考虑对于企业应用来说至关重要。较高的安全性在为企业带来丰厚回报的同时,还能够开拓新市场和增加用户体验。无论是在B2B应用还是B2C应用上,安全方面的考虑始终是