基于双语的中文零指代研究

来源 :苏州大学 | 被引量 : 1次 | 上传用户:hwqcy1021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网与计算机技术的飞速发展,全球各国都在进入一个高速发展的信息化阶段。海量的信息在给人类的生活提供便利的同时,也带来了信息灾难。尤其是最近几年移动互联网与智能手机等高科技的火爆,信息数据更是呈现爆炸式的指数增长,在信息的海洋里如何获得用户所需要的内容成为一个热点。在这些海量信息中存在着很多的省略,这些省略常常指向前文中的某些实体。中文零指代研究旨在对汉语中省略的句法成分进行识别并恢复。因为零指代项没有词法、性别、单复数等表面信息,所以中文零指代研究比传统的中文指代消解研究有着更大的挑战。本文紧紧地围绕中文零指代研究展开,分别做了以下的探索与研究。首先,使用机器学习方法构建了一个基于最大熵的中文零指代项识别系统,为了尽最大的可能来提升中文零指代项的识别性能,我们在此系统上探索了中文零指代项上下文的词法、中文零指代项的句法等多种平面和结构化的特征。紧接着,本文同样使用机器学习方法搭建一个基于SVM(支持向量机)的中文零指代项消解系统。在此系统上探索了中文零指代项、候选先行词以及两者的联合特征,来提升最终的零指代项消解性能。然后将中文零指代项识别系统与中文零指代项消解系统进行整合,构建一个有着完整统一框架的中文零指代研究系统。最后本文提出了一个基于双语的方法来提升中文零指代研究的性能。完整的中文零指代研究系统包括:中文零指代项识别系统与中文零指代项消解系统。我们在中文零指代研究系统上进一步的探索研究,并探索融入英文的作用,在基于双语的基础上进行中文零指代消解性能的提升。实验结果表明,与单语相比较,本文基于双语的方法在实验中取得了更好的实验效果。
其他文献
随着信息技术的飞速发展,现实世界中的大量空间数据被存储在空间数据库中,为了找出空间数据库中数据间的相互关系及其规律,提出了空间挖掘技术。空间聚类是空间数据挖掘的重要方
在信息社会中,随着移动通信技术的发展和移动终端的日益普及,以及软、硬件性能的不断提升,使得移动应用的领域不断扩张,而人们在充分使用移动应用所带来的便利的同时,对应用
随着计算机技术与网络技术的发展和普及,为了实现远程数据传输、远程监控等功能,网络化已成为新一代嵌入式系统发展的一个重要趋势。具有远程监控功能的心电仪应运而生。本文
学位
文本分类的一般过程是首先对训练文本进行预处理,把抽取出来的特征用特征选择算法进行过滤,得到一个特征空间,然后对特征空间用分类算法学习获得一个分类器,最后分类器实现对测试
电子邮件以其方便、快捷、低成本等优点逐渐成为日常生活中主要通信手段之一。但是随之而来的垃圾邮件却给社会造成了很大的危害。因此,研究邮件过滤技术具有重要的意义。  
随着我国信息化建设的迅速发展,政府部门及各大企业都建立了各自的信息处理系统。这些信息系统往往是在不同时期、由不同厂商、在不同平台上建设而成的,而且大都是使用不同语
科学技术的进步推动着人类进入了一个崭新的信息时代,信息和信息技术改变了人类的生活和工作方式,已经成为当今最具活力的生产要素和最重要的战略资源。现今,各种各样的信息充斥
随着计算机网络的飞速发展,多媒体数据越来越多地出现在互联网上,多媒体信息的无序使得用户在其搜索和管理上都很不方便。快速便捷地进行多媒体信息的检索、查询和浏览,成了人们
面对海量的Web服务,服务请求者要想快速高效地得到理想的服务,必须要有一种高效的Web服务匹配和Web服务选择方法,因此对Web服务匹配和Web服务选择方法的研究具有重要意义,本