论文部分内容阅读
随着机器学习理论的发展,机器学习方法逐渐开始处理复杂的学习任务。在监督学习方面,不再局限于解决简单的分类问题,一些复杂问题逐渐进入研究者的视线。其中,序列标注问题因普遍存在于多个研究领域而长期倍受关注。本文主要探讨解决序列标注问题的监督学习方法及其在自然语言处理领域和生物信息学领域的若干应用。研究内容主要包括:第一,基于大间隔的序列标注方法的研究。统计语言模型通常用来解决序列标注问题,并在很多应用中取得了很好的效果。但都存在过拟合问题。基于大间隔的序列标注方法将大间隔的思想引入到序列标注方法中,在理论上保证泛化能力的同时,还能取得好的预测性能。本文正是考虑到基于大间隔的序列标注方法的这些优点,将其应用到英文组块识别、中文分词、生物文本命名实体识别和蛋白质二级结构预测等问题中,均取得了优于其他对比方法的预测性能。第二,置信度加权在线序列标注算法。在自然语言处理领域,序列标注问题具有特征稀疏的特性。为了充分描述这一特性,采用置信度加权分类算法的思想,引入特征权值参数的概率置信度概念,提出了一种新的线性决策式在线序列标注方法:置信度加权在线序列标注算法。在英文组块分析、中文分词、中文命名实体识别以及生物医学命名实体识别等问题上的实验结果表明:置信度加权序列标注算法与现有优秀的在线序列标注算法相比,在预测性能和收敛速度上存在优势;与现有优秀的离线序列标注算法:条件随机场相比,在存储空间和收敛速度上存在优势,且预测精度与之相当。第三,基于频度的在线自适应N-gram序列标注学习算法。N-gram是最基本的序列标注算法,因实现简单、高效而经常被应用系统所采用。在基于N-gram的应用系统中,不同的用户往往对应着不同的N-gram模型。对同一用户而言,Ngram模型也应该随着用户的使用而不断优化。针对这些问题,本文讨论了基于词频的N-gram在线自适应学习算法。这类算法根据用户的每次使用情况,在线自动调整相关频度参数,使N-gram模型达到局部最优。将其应用到音字转换问题中,取得了很好的效果。第四,基于重排序技术的Stacking集成序列标注学习算法。与单一学习算法相比,集成学习往往能通过组合多个单一模型提高预测性能。本文提出了一种基于重排序技术的Stacking集成学习算法,并将其扩展到序列标注问题。该算法采用stacking集成结构,利用重排序技术在训练语料上自动寻找多个单一模型的最优线性组合,分为三个步骤:一、训练多个基模型;二、对每一个训练样本按照样本标签或标签序列将多个基分类器的预测分值组合成新的排序样本;三、对步骤二生成的排序样本重新排序。从理论上讲,这一过程是求解基模型最优线性组合的过程。在分类问题上优于其他对比算法,在生物医学命名实体识别序列标注问题上也获得了优于所有单一模型的预测性能和其他对比算法。第五,多任务序列标注级联学习算法在Hedge识别及其作用范围界定问题中的应用。在实际应用中,存在一类序列标注问题,需要给样本观测序列在不同层次上进行标注,称为多任务序列标注问题,通常采用级联学习算法来解决这类问题。本文把Hedge识别及其作用范围界定问题当作多任务序列标注问题,设计了一个二层结构的级联学习算法用来解决这一问题。所谓Hedge是指表达不确定观点的词后词串,是一个热点研究课题。Hedge识别及其作用范围界定是国际公开评测CONLL-2010的评测内容,本文提供的级联学习算法在CoNLL-2010评测任务上表现出很好的性能。在Hedge识别任务中取得了一个单项第一的成绩;在Hedge作用范围界定任务中,取得了与其它系统相当的成绩。