自然语言处理中序列标注问题的联合学习方法研究

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:pygta
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
序列标注问题是自然语言处理领域的基本问题之一,可以分为两类:单序列标注问题,即预测一个输出标签序列的序列标注问题;多序列标注问题,即预测多个输出标签序列的序列标注问题。对于多序列标注问题,一般采用级联学习方法来处理,这种方法将多序列标注问题当作多个单序列标注问题来逐一进行处理,往往存在错误传递、信息无法共享等缺点。而联合学习方法却能有效克服以上不足,它对多序列标注问题包含的多个单序列标注问题同时进行处理,能够促进问题间的信息交互。本文探析了不同类型的序列标注问题,对单序列标注方法和联合学习方法进行了研究,其中联合学习方法是本文的研究重点。具体的研究内容包括:第一、传统序列标注方法一般采用预测单元的邻近信息作为模型的特征,较少考虑序列中的全局信息,使得预测结果不够准确。针对这一问题,本文提出融合全局信息的级联重排序方法。对于单序列标注问题,级联重排序方法引入包含序列全局信息和句法信息的模型,首先,采用线性重排序方法将这些模型进行结合;然后,从这些模型的预测结果中提取特征来训练结构化感知器重排序方法的模型;最后,将线性重排序方法和结构化感知器重排序方法进行级联来选择最优标签序列。对于多序列标注问题,级联重排序方法能够使用单序列标注问题的全局信息和多个问题的信息,本文称之为级联重排序联合学习方法。实验结果表明:级联重排序方法提高了汉语音字转换问题和汉语语音识别问题的识别准确率,优于单个重排序方法;级联重排序联合学习方法在英语词性标注和组块分析问题上取得了优于级联学习方法和标签值结合方法的预测性能。第二、与单一学习方法相比,统一解析方法能通过在解析过程中将多个单一模型进行结合来提高预测性能。针对多序列标注问题,本文提出有监督和半监督的统一解析联合学习方法。有监督统一解析联合学习方法在解析过程中通过概率加权的方式来结合多个联合学习模型。在半监督统一解析联合学习方法中,首先采用两个联合学习模型对未标注语料进行标注,然后将两个模型预测的标签序列相同的语料作为新训练语料,最后使用原训练语料和新训练语料来训练半监督模型。将统一解析联合学习方法应用于中文分词和词性标注问题,实验结果表明:有监督统一解析联合学习方法优于单一有监督学习方法,半监督统一解析联合学习方法优于目前其他的半监督学习方法。第三、当多序列标注问题中各个单序列标注问题的训练集不一致时,不能采用级联重排序联合学习方法和统一解析联合学习方法来解决。针对这一问题,本文提出一种迭代联合学习方法,使多序列标注问题中的各个单序列标注问题通过特征传递的方式来交互信息。在迭代过程中,对于每个单序列标注问题,首先采用结构化感知器方法将基本模型和包含其他问题信息的模型进行集成,然后再采用该集成学习模型进行预测。英文词性标注和组块分析问题、中文分词和词性标注与名实体识别问题的实验结果表明了迭代联合学习方法的有效性。第四、传统中文序列标注方法采用字词等离散信息作为特征来训练模型,存在模型规模庞大和需要人工特征选择的不足。针对这个问题,本文首先提出一种基于词边界字向量的深度神经网络模型,并用于解决中文单序列标注问题。在模型的字向量表示层,将每个汉字输入表示为词边界字向量的组合;在模型的标签推导层,采用二阶标签转移矩阵来加强邻近标签之间的约束。然后,采用深度神经网络联合学习方法来处理中文多序列标注问题,该方法通过共享多个单序列标注模型的字向量表示层来促进问题间的信息交互。中文分词和词性标注与中文名实体识别的实验结果显示:基于词边界字向量的深度神经网络模型要优于基于基本字向量的模型,而采用深度神经网络联合学习方法能进一步提高模型的预测性能。最后,通过实验对论文提出的四种联合学习方法进行比较分析。
其他文献
引言1985年7月底至8月初,中国图书馆学会在四川新都召开了全国图书馆学教育学术讨论会和经验交流会。会上,武汉大学图书情报学院院长彭裴章教授在变到图书馆学专业教材问题时,
<正>自我国新《课程计划》颁布以来,伴随着日渐成熟的活动课程实践经验为相关理论注入生机的同时,有关活动课程理论自身的困惑与分歧也愈益显露,并且再次令众多实践者不知何
本文从黑箱理论的管理模式入手,分析了中职生的现状,探讨了黑箱理论在班级班干部管理的应用方式,总结出了一套广泛适用于中职生班级管理的方式,进而提出了运用黑箱理论进一步
【正】 一般地说,图书馆在社会生活中的重要地位和作用,大家非常清楚,但是,图书馆与经济增长的关系,恐怕并不是所有的人都知道。为此,本文试图从经济增长的诸因素的分析中,进
良好的环境是学生安心学习的基本保障。班级是教学的基本单位。因此,班级管理就显得尤为重要。而班主任工作开展得力与否是影响班风学风的重要因素。笔者以自身班主任工作心
<正>将存贷比调整为监测指标后,应完善多维度、精细化、前瞻性的流动性风险定量监管框架,推动落实流动性风险监管定性要求近日,全国人大常委会审议通过关于修改《中华人民共
【正】 要使劳动者积极而有效地为完成图书馆组织的任务,达到图书馆组织的目标,就要进行必要的人员管理。较之金钱、物质、设备的管理而言,它涉及到组织的管理者和所属各级人
审查基准是与行政许可活动有关的一种裁量基准。本文以国内航线经营许可审查基准为例证,指出行政许可机关和咨询委员会都有审查基准制定权,审查基准必须公布。行政机关应以行
<正>今年5月8日,国务院公布了中国工业发展指导性规划《中国制造2025》,该规划是我国实施制造强国战略的第一个10年行动纲领。规划指出打造具有国际竞争力的制造业,是我国提
朱元璋奄奠海宇、肇成帝业之后,在空前强化君主专制统治的同时,大张旗鼓地归并全国寺院,三分天下僧人,严控度牒发放,限制僧伽数量,颁行《周知板册》、《寺院名册》、《申明佛