基于DPCNN模型融合语句特征的因果类复句关系自动识别

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:nj_lcj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因果复句是汉语中应用最广泛,使用最频繁的复句,是汉语复句研究中不可缺少的一个重要部分。复句的研究首先是要理解复句的语义,这就需要对复句的关系进行识别。对有标复句来说,可以根据关系词来识别复句的关系,但关系词识别也是一个难题,有时一个关系词可以对应多种类别,这更为复句的关系识别增加了困难。目前,对于复句关系识别有多种方法,基于规则和基于机器学习的方法都太过依赖人工选择的特征,会存在人工构建特征稀疏、语义不完备的情况。而基于深度学习的方法不需要人工提取特征,它可以自动挖掘复句的隐含特征,从而实现复句的关系识别。针对复句关系识别太过于依赖人工特征问题,本文提出了基于DPCNN模型与语句特征融合的方法进行复句关系识别,虽然深度学习模型可以自动挖掘句子隐含的语义信息,但添加人工选择的特征可以使深度学习模型能充分利用语言学研究的知识与成果,使模型效率更高,达到更好的识别效果。本文的研究对象是二句式有标因果类复句,数据来自于华中师范大学标注CCCS语料库和清华新闻分类语料库THUCNews。主要任务是使用深度学习模型与人工选择的特征相融合的方法对复句关系进行识别,比较不同特征与模型融合效果,选择出表现最好的模型。本文主要选择了关系词、词性、依存句法等三种人工选择的特征,并将这些特征建立索引,用一维向量表示。首先是使用pyltp对语料库中的复句进行词性标注和依存句法分析得到每个词的词性和依存关系,然后使用gensim库将复句训练成预训练的Word2vec词向量表示,将词向量与关系词、词性、依存关系等特征向量拼接作为新的向量输入到DPCNN模型中。实验将关系词特征、词性特征、依存句法特征分别与词向量拼接,同时也将不同特征组合与词向量拼接,获得了效果最好的组合方式,实验的F1值优于现有的方法。添加特征的模型比不添加特征模型的F1值也均有所增加,实验结果表明,在深度学习模型中融合人工选择的特征使模型表现更好。
其他文献
随着我国大学入学人数的逐年递增,高校教学质量受到了社会各界人士的广泛关注;而学业成绩作为衡量学生一段时间学习成效的重要指标,成为评价高校教育水准的重要指标之一。同时,各高校借着物联网、云计算和大数据迅猛发展的东风,纷纷建立了数字化校园环境。在此进程中,海量学生行为数据在校园内生成并不断积累。这些数据涵盖了学生日常学习和生活的全过程,不仅是研究人员当下关注的重点,也受到了高校管理人员的关注。但在实际
《:塑料成型工艺与模具设计》是模具与机电相关专业的必修课程,其课程思政教学改革是专业建设的重要内容,也是人才培养的重要环节,针对该课程内容庞杂、系统性和实践性强的特点,通过发掘课程蕴涵的“思政元素”,对《塑料成型工艺与模具设计》的课程思政教学进行有益的探索,并取得较好的教学效果。
《1000以内数的认识》是学生在认识了100以内数的基础上教学的,旨在认识"千位"及其计数单位——"千",初步建立四位数的整数数位顺序,进一步体会相邻单位之间的十进制关系,并在此过程中有意识地培养学生的数感。这是教材第一次正式介绍"比100大的数",对于二年级学生来说,在生活中其实已普遍接触过,且绝大多数学生会读会写即将要学的"1000以内的数"。在这样的学情下,加之"数的认识"本身又有些枯
期刊
互联网的飞速发展,既孕育着机遇,又带来了挑战。一方面,许多网络社交媒介涌入人们的生活,如微信、微博、贴吧等,使得人们在发表自己的言论时不受时间空间的限制,互联网俨然成为了人们思想文化信息的集散地。另一方面,正是由于人们在互联网上发表的言论存在自由性强、受众面广、传播速度快和超越时空性等特点,为虚假违法消息的传播提供途径,容易导致舆情负面危机,互联网因此成为社会舆论的放大器。因此,如何用科学的方法预
人机对话,主要目标就是希望机器能够与人类进行流畅、自然的对话,从而便利人类的生活,满足人类的需求。为了增强对话质量,使机器生成的语句更像人类发出,涌现出了各种各样的人机对话系统。但是,在开放域中,如何能让机器清楚理解人类意图,明确对话目标,仍是一直在攻克的难关。因此,本文主要关注在开放域中的对话生成,该任务旨在生成更符合逻辑,与上下文衔接更紧密,更具有主题性和多样性的回复内容。本文的主要工作如下:
随着互联网技术的飞速发展,基于互联网的电商平台如雨后春笋般涌现,用户在这些平台上发表意见、抒发个人情感已经成为一种习惯,海量的评论数据随之产生,发掘出用户的情感倾向已经成为产品售后信息反馈的重要途径。目前文本情感分析任务中研究的对象主要是微博评论、电影影评、电商评论,针对线上课程评论进行情感分析的相对较少。但是线上教学已经成为我国中小学教育和普通高等院校教学中的重要组成部分,针对线上课程评论进行情
伴随互联网技术在我国公共教育场景的广泛应用与发展,深度学习技术助攻在线MOOC学习平台,为各行各业的教育研究者和学习者提供了便捷沟通和智能学习的渠道,开启了信息时代的教学新革命。MOOC在线论坛作为平台教学的重要辅助工具,平台课程讨论区存在的大量交互贴文本数据,隐含着学习者在参与论坛讨论过程中的各种话语行为及认知思维形态,基于深度学习技术识别学习者话语内容中潜在的认知行为类别,对研究MOOC论坛中
2020年新型冠状病毒肆虐全球,疫情防控迫在眉睫。为防止疫情扩散,正确佩戴口罩在人们的日常生活中至关重要。目前针对大范围人员流动场所一般配备检查人员进行口罩佩戴检测,该方式存在工作人员与他人接触感染的潜在漏洞,同时无法具备全天候监测等不足。通过运用计算机视觉技术解决口罩佩戴检测问题,不仅可以避免人员之间交叉感染的风险,而且能够有效化解当下疫情常态化防控难题。口罩佩戴检测在计算机视觉领域可以视为两阶
细菌是常见的人体微生物,影响着人类健康。但是随着抗生素的滥用,人体内某些有害细菌产生了耐药性,导致超级细菌的出现,成为人类面对的难题。噬菌体是以细菌为宿主的病毒,具有很强的特异性,可以在宿主体内进行自我繁殖,并使宿主失活。噬菌体疗法不易产生耐药性且杀菌效果强,其杀菌效率是目前常规抗生素的数百倍甚至数万倍。噬菌体疗法给医疗界带来了希望,但是通过传统的生物实验来寻找有效的噬菌体常常效率低。生物信息学基
随着信息技术的飞速发展,人们的生活正在发生巨大改变,人们对基于位置服务的需求越来越迫切,尤其是室内位置服务。室外定位系统中BDS系统、GPS系统等受室内复杂环境条件限制精度大幅下降甚至失效,难以在室内定位中发挥作用,而室内二维定位技术缺乏高程信息,也难以满足人们对室内位置服务的需求,三维定位技术普遍存在精度高时硬件成本也相对较高而难以大范围推广,硬件成本较低时定位的精度大幅下降而难以满足位置服务需