中文词性标注中异构数据问题研究

来源 :复旦大学 | 被引量 : 0次 | 上传用户:wangyang062011
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文主要研究中文词性标注中异构数据问题。中文分词和词性标注是中文自然语言处理的基础任务,句法分析和语义分析建立在这些基础任务之上,大量的系统也依赖于这些基础任务的效果,比如对话系统和检索系统中会用到分词算法,信息抽取、关键词提取等算法常利用词性标注的结果。随着研究人员的增加、工业界的发展以及互联网的普及,出现了大量的异构数据和语料。本文主要从两个方面研究这些异构数据:目标数据的异构问题和训练语料数据的异构问题。目标数据的异构问题在词性标注任务中的主要体现在于标注对象是异构的。现今,互联网络的流行、各国文化的融合等因素使得中文文章和对话中常常掺有少量的外文比如英文单词,尤其在电子邮件和互联网的博客与社交网络中。因此,分析研究中英文混合文本就成为了一个重要且富有挑战的工作。本文研究了对中英文混合文本这样的异构数据进行词性标注的方法。因为缺少标注好的标准人工语料,大部分词性标注方法都将英文等外文简单的标注为“外文”,这样不利于后续的句法和语义的分析。所以本文提供了一个基于动态特征的词性标注方法,它能更好的利用词级别的特征,增强中英文混合文本的标注效果。本文使用人工合成数据的方法解决了缺少混合文本人工标注语料的问题,合成数据时使用的“统一标签”也能减少未登录词对于算法的影响。实验表明本文的方法在中英文混合文本上相比传统的序列标注方法取得了更好的准确率,即使在纯中文文本上也取得了一定的提高。训练数据的异构问题主要体现在如何更好的利用现有的大量异构语料提升词性标注算法的效果。如今,越来越多的研究人员被中文分词和词性标注中异构人工标注语料集的相关问题所吸引。本文提出了一个基于异构人工标注数据集的中文分词和词性标注的统一模型。我们首先在两个异构人工标注数据集CTB (Penn中文树库)和PPD(北大人民日报语料)间自动建立一个松散的不确定的映射,然后将异构语料上的中文分词和词性标注作为两个相互关联的任务,在两个异构语料上同步训练我们的模型。实验证明本文的方法利用两个异构语料间的共通的信息,可以同时增强在两种异构语料上的分词和词性标注的效果,并相对业界最好的水平取得了明显的提高。本文的贡献主要有两个:首先,提出了中英文混合文本词性标注的问题,并使用动态特征,利用词级别信息对这种异构目标数据的情况做出了处理。其次,对于异构语料训练集,使用了不同于传统的方法,在训练阶段同步使用两种异构语料,并改进模型利用异构语料共通的信息提升了词性标注的效果。
其他文献
编译器是一种将高级程序设计语言编写的源程序转化为语义等价的机器语言程序的系统软件。在这个过程中,编译器常常会对于输入代码进行优化,从而可以得到更好的性能或者是减少
应用层多播将多播功能迁移到应用层,避免了多播应用对网络基础设施的依赖,易于大规模的部署和实施,其灵活性和可扩展性是IP多播所不可比拟的。同时网络层功能的上移为实现高
随着云计算、面向服务的体系结构以及软件即服务的流行和发展,Web软件系统的使用越来越普遍。这类系统往往运行在复杂、多变的网络环境中,面临着大量的不确定性,因此其运行时质
移动Agent是一种新型的分布式计算技术,具有良好的应用前景。作为一种能够在异构网络中自主迁移的分布式计算实体,移动Agent具有减轻网络负载、支持断连操作、动态适应网络等优
随着我国农业信息化的发展,农业相关信息也呈现出了信息资源海量化的特征,如何才能在信息的海洋中获取到适时、准确、有价值的信息是农业信息化亟待解决的问题。把各种信息进行
随着信息技术的进一步发展,计算机越来越多应用于企业计算和多媒体教学等领域。目前这些应用大多仍采用以传统内置磁盘计算机为主体的分散计算模式,这种模式虽然在一定程度上
在计算机科学中多年的研究与实践后,我们发现依据稳定性的传统定义是很难使得计算机系统获得稳定性的,因为单一的一个计算机系统显然是不可能对在其中运行的所有进程都保持稳定
虚拟专用网(VPN)是一种应用广泛的网络服务方式,随着互联网技术和无线网络技术的迅速发展,远程访问VPN技术在网络应用中扮演着越来越重要的角色。VPN技术为企业用户带来了更
神经网络的研究自从上世纪80年代起引起了人们的高度重视,其应用范围广泛,涉及模式识别、函数逼近、智能控制、数据挖掘和知识发现等诸多领域,取得了可喜的成绩。但在应用中,尤其
Ad Hoc 网络是一种无线、多跳、自组织、无中心的对等式网络。安全是Ad}toc网络研究中的重要内容,Ad Hoc网络安全的研究主要涉及证书管理、密钥管理、安全路由、入侵检测等几