基于深度学习的汉语复句层次结构分析方法的应用研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:liongliong519
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理的一个重要分支——中文信息处理,在语义理解、文本生成等众多方面作用突出,而复句又作为汉语语法的重要实体单位,其在语义表达上复杂多样,因此,具有很高的研究价值和意义。一方面,它由单句构成能表达出非常丰富的语义信息;另一方面,也包含了单句间的逻辑语义层次结构关系,对于段落篇章分析意义重大。复句研究目前主要包括分句划分,关系词识别,关系类别判断,以及层次结构分析等。鉴于关系词对复句层次结构识别存在直接影响,因此能够有效准确地识别出关系词十分重要,但由于关系词本身离析度不同,及存在大量缺标或无标复句,使得提取准确率不超过76.3%[1]。因此,就需要从句法、语义、及交叉特征等多角度来综合分析复句层次结构关系。本文主要围绕基于改进的卷积神经网络方法并采用多维度特征融合的策略对复句层次结构进行分析识别。研究工作主要包括三部分,首先,对复句进行准确分句划分,通过分析复句依存句法,提取出基于谓词核心的句法特征,包括句内谓核依存复现分布和句间依存关系分布;然后,鉴于分句间语义关联程度是决定层次结构划分的重要因素,利用中文维基百科语料训练句向量Doc2Vec模型,提取基于句向量的语义特征,及句间相似度度量特征,并将其按信息量90%留存度进行PCA降维处理;最后,由于复句多为短文本且缺少上下文信息,在一定程度上会造成分句的整体表示存在语义缺失或表示偏差,那么可以加入局部语义信息作为补充,因此,提取基于词向量Word2Vec与TextRank相结合的抽象特征,前者表示词嵌入,后者提取句中带权关键词,共同计算分句加权关键词词向量用以表征其局部语义信息,同样按90%信息留存度作降维处理。因此,通过浅层句法特征、深层语义特征,及交叉抽象特征三个维度作为复句表示。通过特征融合将机器学习算法作为基线模型并做特征权重分析,以改进的带注意力机制的双通道卷积神经网络模型在CCCS语料库上进行对比实验,分析其预测准确率、F1-score、AUC,通过实验,语义特征、相似度特征及带权词向量特征对目标影响较显著,同时复句层次结构分析的正确率为83.1%。该结果表明,本文提出的基于深度学习的一系列研究方法对层次结构分析是行之有效的。
其他文献
“棋”题材中国画作品的意蕴,关注“棋”题材中国画作品本身,以其为探讨对象,探求具体作品画面中的意蕴逻辑。“意蕴”既是研究的探讨内容,又有一定的学术基础,对解读和研究相关作品具有重要意义。论题所涉及的“意蕴”,寓有四层含义:一、寓于中国画作品笔墨中的意蕴;二、包含在中国画作品形式构成中的意蕴;三、中国画作品中的物象、事件、情节等的指称含义和表现意义;四、中国画作品的文化意义。这四层“意蕴”的话域逻辑
我国设施作物生产中土壤营养元素失衡,土壤呈现酸化趋势是一个较为严重的问题。土壤酸化会增加可溶性铝的含量,抑制植物正常生长和损害其生理功能。植物体内合成的铝激活苹果
金属腐蚀所造成的事故与经济损失十分严重,而传统树脂基有机涂层体系尽管具备耐侵蚀能力强、体积稳定、环境友好、易于操作等优点,但也同时存在力学强度低、易于老化等性能缺陷。石墨烯是一种由碳原子以sp2杂化轨道组成蜂巢状晶格的二维碳纳米材料,由于其独特的片层状结构和优异性能,适合用作有机防腐涂料的改性组分。为取得一种既简单方便又节省成本的高性能防腐涂层及其制备方法,本文参考金属基体表面的常规涂层工艺,通过
背景与目的目前,人工髋关节置换手术是骨科常规手术,在全世界范围内大量开展,可以为患者解除痛苦,改善生活质量,据统计,全世界每年有数百万例人工髋关节置换,且大约以每年5%的比率逐渐增加。同时,髋关节置换也存在一些术后并发症,严重者需进行髋关节假体的翻修,翻修手术给患者带来巨大痛苦和经济负担,降低了患者的生活质量。而导致髋关节翻修最常见的病因为假体无菌性松动,分析其发生松动的原因,进而降低置换手术后假
供销社作为为农服务的合作经济组织,在我国发展的不同阶段,为推进农业、农村、农民的发展做出了巨大贡献。但受到国家经济制度及政策变迁的影响,加之自身治理机制的老化,自上世纪80年代以来,供销社的发展受到了冲击,其为农服务功能逐渐削弱,大多数人认为供销社已不复存在,其定位和作用也受到了质疑。因此,为解决供销社长期发展中积累的问题,发挥它在解决“三农”问题中的特殊作用,2015年,中共中央、国务院提出了深
学位
乳腺癌由于其高异质性而被分为不同的亚型标志着乳腺癌治疗进入精准医疗时代。针对大部分的乳腺癌亚型,临床上都有相应的治疗手段,如Luminal亚型乳腺癌通常采用内分泌治疗,HER2过表达亚型乳腺癌采用靶向药物治疗,然而对于三阴性乳腺癌,因其缺少有效靶点,导致治疗手段有限,患者易复发且预后差。目前,学者试图通过新型治疗手段对三阴性乳腺进行治疗研究,但收效甚微。因此本研究借助体细胞重编程概念提出三阴性乳腺
交通运输业是旅游业发展的基础支撑,认识和探讨交通运输业对旅游业发展的机制和规律,对优化区域旅游交通网络布局,合理配置旅游资源具有重大意义。本文以景区可达性对旅游流
结直肠癌(colorectal cancer,CRC)是全球范围内常见的消化道恶性肿瘤之一。近年来的研究表明CRC的发生发展与肿瘤免疫与代谢重编程密切相关。我们前期研究CRC免疫逃逸机制的过程中,通过TCGA数据库分析发现B7-H3可能影响谷胱甘肽代谢通路中异柠檬酸脱氢酶(isocitrate dehydrogenase,IDH1)的表达,B7-H3为B7/CD28免疫球蛋白超家族成员,IDH1参
场景图像中的文字所表达的直接含义对于理解场景内容尤为关键,越来越多的智能应用都使用到场景中的文字信息。但受不同字体、任意排列方向以及复杂背景、光照等因素影响,现有的文本检测方法都具有很多局限性。相比传统机器学习算法,深度学习算法能够学习文本的深度特征,具有更加出色的性能。本文结合分段链接的思想并分别采用位置回归与语义分割的方法设计实现了以下两个文本检测模型:(1)基于特征层融合的表征增强模型。分段
轻强子物理在高能物理领域的研究中具有举足轻重的地位。1974年在实验上的J/ψ粒子为轻强子谱的研究开拓了广泛的领域,而北京正负电子对撞机通过正负电子对在3.097GeV能量点