基于神经耦合序列标注的异构数据转化和融合

来源 :苏州大学 | 被引量 : 0次 | 上传用户:cool_lei
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
有监督的统计机器学习方法依赖高质量的人工标注数据训练模型参数。然而,人工标注数据通常要耗费大量的人力和时间成本。在自然语言处理领域,针对同一个任务,通常存在多个符合不同标注规范的人工标注数据,称之为多源异构数据。和单个人工标注相比,多源异构标注数据在规模和领域覆盖面上具有明显优势,因此有助于缓解模型训练时的数据稀疏问题。本文以中文分词和词性标注这两个词法分析任务为例,提出一种神经耦合序列标注方法,直接利用多源异构标注数据,一方面有效支持异构标签转化(即同构化),另一方面提高模型的分析性能。具体而言,本文的主要研究内容如下。(1)众包数据标注系统搭建和词法数据标注目前几乎所有的词法标注数据均仅仅遵守单一标注规范。为了支持异构数据的转化性能评价,需要人工标注一定规模的同源异构数据,即一个句子上同时具有遵守多个规范的人工标注结果。为此,我们随机选取了北大人民日报语料(People’ s Daily,PD)数据集中的1000句,并人工标注了遵守宾州中文树库(Chinese Penn TreeBank,CTB)规范的词性标记。为了保证人工标注数据的质量,本文设计了一套标注流程,并开发了一个基于浏览器的众包数据标注系统。除了支持词性标注外,我们的标注系统还支持很多其他自然语言处理任务,如多分类、层次分类、分词、命名实体识别、依存句法分析等。(2)面向异构词法数据的神经耦合序列标注模型为了直接利用多源异构数据进行模型训练,Li等(2015)提出了基于传统离散特征的耦合序列标注模型,直接学习和推断两种异构标签。其基本思想是将两个词性标签捆绑在一起(例如:“NN@n”),形成耦合词性空间(Bundled tag space),并以模糊标注的方式,在耦合词性空间上训练模型。本文将基于离散特征的耦合序列标注模型扩展到基于神经网络的框架上。我们采用多层BiLSTM作为编码器,预测分值时,使用三个MLP分别预测了两组独立标签的得分和一组耦合标签的得分,并根据映射关系将三个分值相加作为最终得分。实验表明,相比利用单个训练数据的基准模型,神经耦合序列标注模型在词性标注和分词词性标注联合任务上均取得了显著的准确率提升;和多任务学习模型相比,神经耦合序列标注模型在异构标签转化任务上也具有明显优势。(3)基于标签裁剪的快速神经耦合序列标注模型耦合序列标注模型直接将两个数据的标签集合进行笛卡尔乘积,导致耦合标签数量很大。例如,在分词词性标注联合任务上,耦合标签的数量超过一万。这会导致模型效率低和显存占用大。Li等(2016)针对基于传统离散特征的耦合序列标注模型,提出了一个上下文相关的局部剪枝策略,提升了模型的效率。与基于传统离散特征的模型相比,神经网络依赖大矩阵并行运算来提高模型效率,而上下文相关的局部剪枝会在不同位置上产生不同的候选答案集合,因此无法使用大矩阵运算。对此,我们针对神经耦合序列标注模型,提出了一个直接对耦合标签集合进行裁剪的策略。首先利用训练好的模型在多个训练集上预测得到含噪声的耦合标签,然后根据频率进行裁剪低频耦合标签,最后在裁剪后的耦合标签空间上建立快速神经耦合序列标注模型。实验结果表明,这种方法能够在不影响分析和转化准确率的情况下,显著提高模型的效率。综上,本文主要提出了一个神经耦合序列标注模型,有效利用多源异构数据,提高中文词法分析的性能。本研究在词性标注任务、分词词性标注联合任务以及异构词性转化任务上取得了一些初步可观的成果。我们期待这些研究成果可以进一步推动自然语言处理领域一些上层任务的研究和发展。
其他文献
由于中国经济的不断发展,人口城镇化速度越来越快,导致城市交通的压力与日俱增。城市轨道交通是我国城市交通运输体系中的一种重要的运输方式,尤其是针对人口众多的一线城市。轻轨车辆主要由车体、转向架、制动装置、车辆连接装置、电气系统、受流装置和车辆辅助系统组成,而连接装置的不合理使用会导致车辆的运行品质降低,更严重的会引起安全问题。对铰接连接器的匹配性进行研究分析,具有一定的理论意义与实际应用价值。本文以
近年来,随着人工智能领域的发展和社会实际的需要,室内服务机器人技术也在研究创新并不断落地。为了提高机器人的自主性,势必要增强其导航规划能力,让其在复杂场景中可以保证
目的:通过观察对比中医扶正疗法联合射波刀和单纯使用射波刀治疗早期原发性肝癌对肿瘤大小、甲胎蛋白、血清异常凝血酶原、γ谷氨酰转肽酶同工酶Ⅱ等方面的影响,运用统计学原理判断其相关性,评估中医扶正疗法在早期原发性肝癌射波刀术后的疗效,为中医扶正疗法在早期原发性肝癌射波刀治疗术后的治疗提供临床依据。方法:将符合纳入标准的120例研究对象随机分为治疗组和对照组,治疗组为经早期原发性肝癌射波刀治疗术后运用中医
随着交互式多媒体应用的兴起,全景视频技术也在不断快速发展。与传统视频相比,全景视频有着更高的清晰度和不同的观看方式,能够带给用户强烈的沉浸感和更广的视野范围。随着
随着人工智能技术不断发展,自动化仓库在现代工业制造中发挥着越来越重要的作用。自动引导小车(Automated Guided Vehicle,AGV)作为自动化仓库智能化组成部分,具有运输平稳、
在新时代背景下高校应提高文化自信、文化互通意识,随着我国经济快速发展以及进一步开放,吸引愈来愈多的国际留学生来华学习深造,面对如此庞大的留学生群体,这给高校传播中华
背景:动脉瘤是老年人中的常见疾病,在美国已成为排名第13位的死亡因素;吸烟是唯一可控的动脉瘤危险因素,尼古丁作为香烟的主要成分,已有研究报道能诱导形成动脉瘤。在我们的
基于视频的人体动作识别,作为近些年来视觉领域中一个热门的研究课题,被广泛用于智能人机交互和虚拟现实、智能视频监控和基于内容的视频检索、智慧医疗和看护等领域。然而在
党的十八大以来,围绕全面建成小康社会这个目标,中央提出了精准扶贫、精准脱贫的概念,狠抓扶持对象、项目安排、资金使用、措施到户、因村派人、脱贫成效等六个精准,精准扶贫
人眼球结膜微血管的形态结构能够反映高血压、冠心病和糖尿病等心血管疾病的严重程度,通过对球结膜微血管的形态特征和数量等属性进行筛查,能够辅助医师诊断患者的病情。由此