序列标注问题的监督学习方法及应用

被引量 : 0次 | 上传用户:chppxhn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着机器学习理论的发展,机器学习方法逐渐开始处理复杂的学习任务。在监督学习方面,不再局限于解决简单的分类问题,一些复杂问题逐渐进入研究者的视线。其中,序列标注问题因普遍存在于多个研究领域而长期倍受关注。本文主要探讨解决序列标注问题的监督学习方法及其在自然语言处理领域和生物信息学领域的若干应用。研究内容主要包括:第一,基于大间隔的序列标注方法的研究。统计语言模型通常用来解决序列标注问题,并在很多应用中取得了很好的效果。但都存在过拟合问题。基于大间隔的序列标注方法将大间隔的思想引入到序列标注方法中,在理论上保证泛化能力的同时,还能取得好的预测性能。本文正是考虑到基于大间隔的序列标注方法的这些优点,将其应用到英文组块识别、中文分词、生物文本命名实体识别和蛋白质二级结构预测等问题中,均取得了优于其他对比方法的预测性能。第二,置信度加权在线序列标注算法。在自然语言处理领域,序列标注问题具有特征稀疏的特性。为了充分描述这一特性,采用置信度加权分类算法的思想,引入特征权值参数的概率置信度概念,提出了一种新的线性决策式在线序列标注方法:置信度加权在线序列标注算法。在英文组块分析、中文分词、中文命名实体识别以及生物医学命名实体识别等问题上的实验结果表明:置信度加权序列标注算法与现有优秀的在线序列标注算法相比,在预测性能和收敛速度上存在优势;与现有优秀的离线序列标注算法:条件随机场相比,在存储空间和收敛速度上存在优势,且预测精度与之相当。第三,基于频度的在线自适应N-gram序列标注学习算法。N-gram是最基本的序列标注算法,因实现简单、高效而经常被应用系统所采用。在基于N-gram的应用系统中,不同的用户往往对应着不同的N-gram模型。对同一用户而言,Ngram模型也应该随着用户的使用而不断优化。针对这些问题,本文讨论了基于词频的N-gram在线自适应学习算法。这类算法根据用户的每次使用情况,在线自动调整相关频度参数,使N-gram模型达到局部最优。将其应用到音字转换问题中,取得了很好的效果。第四,基于重排序技术的Stacking集成序列标注学习算法。与单一学习算法相比,集成学习往往能通过组合多个单一模型提高预测性能。本文提出了一种基于重排序技术的Stacking集成学习算法,并将其扩展到序列标注问题。该算法采用stacking集成结构,利用重排序技术在训练语料上自动寻找多个单一模型的最优线性组合,分为三个步骤:一、训练多个基模型;二、对每一个训练样本按照样本标签或标签序列将多个基分类器的预测分值组合成新的排序样本;三、对步骤二生成的排序样本重新排序。从理论上讲,这一过程是求解基模型最优线性组合的过程。在分类问题上优于其他对比算法,在生物医学命名实体识别序列标注问题上也获得了优于所有单一模型的预测性能和其他对比算法。第五,多任务序列标注级联学习算法在Hedge识别及其作用范围界定问题中的应用。在实际应用中,存在一类序列标注问题,需要给样本观测序列在不同层次上进行标注,称为多任务序列标注问题,通常采用级联学习算法来解决这类问题。本文把Hedge识别及其作用范围界定问题当作多任务序列标注问题,设计了一个二层结构的级联学习算法用来解决这一问题。所谓Hedge是指表达不确定观点的词后词串,是一个热点研究课题。Hedge识别及其作用范围界定是国际公开评测CONLL-2010的评测内容,本文提供的级联学习算法在CoNLL-2010评测任务上表现出很好的性能。在Hedge识别任务中取得了一个单项第一的成绩;在Hedge作用范围界定任务中,取得了与其它系统相当的成绩。
其他文献
长春市的二次供水布局混乱,管理不善。有相当一部分供水设施长时间无资金维护、管理,使二次供水设施时常发生溢流和管网漏失;同时水质污染也十分严重。有一部分供水水箱(池)
当前,世界物流的发展表现出全球化、信息化、电子化、高科技化等特点,在现代经济中的地位不断攀升,同时扮演着服务者、联络者和调节者的三重角色。国外物流企业开始进入我国,
为了更好的实现并联均流,提出了一种基于电流跟踪控制方法的智能并联均流控制策略,主控制器根据输出电流和输出电压的采样信息,计算出所需要的输出电流,并通过串口通信将其分
随着一次性能源面临枯竭及社会发展对能源需求的不断增长,太阳能作为一种普遍均匀、清洁环保的绿色资源,得到了很多国家的重视和开发利用。作为太阳能的发电载体,太阳能电池
药理学是培养医学生的合理用药能力的关键课程。农村社区医疗有许多特殊性,基于农村社区医疗的实际需求,通过以岗位需求制定课程标准,以农村事例为教学背景,增强使命感,以农
目的探讨与建立适合我国人群孕中期唐氏综合征产前筛查中的生物统计方法,包括血清标志物孕龄校正模型和MoM值体重校正模型,孕妇个体风险估计模型,二联筛查方案与三联筛查方案
在非物质文化遗产保护工作日益兴起的大背景下,本文从民俗学的视角,运用田野调查的相关方法,对长阳南曲的传承环境、传承主体、传承特点与变迁、传承困境等进行了较为系统的
环境问题一直与人类社会息息相关,自古以来人与自然关系就是人类历史所关注的重要课题。面对当今不断遭到人类破坏的大自然,以及日益加剧的生存困境,人类不断反思人与自然的
针对电力领域服务请求量较多和客服人员数量有限之间的矛盾,设计了一种新型电力智能问答平台架构。在公司已建立多元化服务渠道的基础上,通过分析智能问答平台4个主要模块的
作为离心式压缩机的关键部分,干气密封系统直接影响着天然气长输管道运行的安全性与稳定性。当前,我国对天然气离心式压缩机干气密封失效的原因进行分析,如果干气密封系统出