维吾尔语事件间因果关系抽取

来源 :新疆大学 | 被引量 : 0次 | 上传用户:ha1cy0n
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
因果关系作为事件外部关联中的一种语义关系,在文本中既常见又非常重要,有着广泛的应用前景。它反映了事件间的先后相继、由因及果的一种关系。因果关系的识别对文本事件抽取,深层语义理解有着重要意义,有助于获取事件演变的过程,对事件的发生进一步认识,从而为决策者提供重要的信息来预判事件后期的发展。本文针对传统的方法不能有效抽取维吾尔语事件间因果关系问题,对维吾尔语词性标注和事件间的因果关系进行了研究,提出了一种基于双向长短时记忆网络的维吾尔语事件因果关系抽取方法。为了适应维吾尔语事件间因果关系的抽取,结合现有的词性标注集,本文对维吾尔语词性标注集筛选扩充,最终确定了40种词性。条件随机场和长短时记忆网络是常用的两种词序列标注模型。在实际研究过程中,条件随机场的特征函数对模型最终的性能非常重要,需要精心设计;同时长短时记忆网络在最终打标签阶段,采用softmax进行处理,这种方法在处理输出标签有直接强烈关系的数据时,效果有限。为了解决这些问题,本文提出了一种基于双向长短时记忆网络和条件随机场混合神经网络模型,使用条件随机场对双向长短时记忆网络的输出概率矩阵进行建模,得到最终的词性标注序列。最终实验表明P、R和F值分别达到了90.48%、85.32%和87.36%。相比于条件随机场等方法,该混合模型对维吾尔语词性标注有更好的标注效果。在维吾尔语事件间因果关系抽取任务中,传统的方法采用手工提取词性,实体以及句法信息等特征,然后带入浅层机器学习方法中。这类方法未能充分考虑事件句的深层语义信息,实验结果也表明传统的方法不能有效的抽取事件间的因果关系。因此,本文提出一种基于双向长短时记忆网络的维吾尔语事件间因果关系抽取方法,将维吾尔语事件间因果关系抽取问题转换为对事件对分类的问题。首先通过对维吾尔语的格语法、词干词尾和语序结构等语言特点以及事件间因果关系特点的研究,提取出11项基于维吾尔语事件内部结构信息的特征;为了充分利用事件句的深层语义信息,本文引入词向量作为双向长短时记忆网络的输入,提取出维吾尔语事件句隐含的深层语义特征,同时为了加速模型的收敛,引入批量规范化算法加速双向长短时记忆网络的收敛;最后融合11项事件内部结构信息特征和深层语义特征作为softmax分类器的输入,最终完成维吾尔语事件间的因果关系抽取。最终实验表明P、R和F值分别达到了89.19%、83.19%和86.09%,验证了该方法对维吾尔事件间因果关系抽取的有效性。
其他文献
春节回乡,笔者最大的感受就是家里手机泛滥。无论男女老少,都钟情于抱一部手机,独自沉浸。面对手机喜笑颜开,当面交流却话语减少。更令人担忧的是,智能手机在青少年乃至幼童间也愈
报纸
<正> 密炼室壁与转子叶片端部之间的径向间隙,对胶料的形成过程有重要影响。由于试验研究工作比较复杂,关于这一问题的报道比较少,间隙尺寸对散状物料进入胶料的过程,分布的
羊是动物大家庭中的重要成员,是地球最古老的动物种族之一,也是与人类生活有着亲密关系的动物。据考古学家发现,人类最早饲养的动物即是羊,之后才是狗、牛、马、猪、猫、鸡、鸭等
郁达夫前期小说的独异性在很大程度上缘于他此期创作中"率真"的审美追求."率真"的审美追求主要体现在对题材的择取与处理、人物形象的塑造、自然景物的摹写以及创作方法的运
本文从什么是计算说起,通过对计算机的发展历史和人类对计算本质认识的回顾,提出量子计算系统的发展和成熟,并且提出了人类认识未知世界的规律:"计算工具不断发展-整体思维能
分析了如何在新形势下不断提高美术绘画课的教学成果,明确了高中美术绘画课的基本目标,审视了当前绘画课的现状和存在的问题,并针对这些问题提出了指导绘画训练课有效开展的建议
随着软件在国防领域的应用越来越广泛,国防科研项目中的软件定价问题日益突显,不合理的计价方法,挫伤了国防科研院所的积极性,从而也阻碍了军队信息化发展进程。本文分析了目
传统的Adaboost算法在处理软件缺陷数据时,面临两个问题:Adaboost未能考虑软件缺陷数据为不平衡数据,即无缺陷的样本数远远超过有缺陷的样本数;通过Adaboost选择出来的软件特
城乡结合部是我国快速城市化的产物。“城乡结合部”这一特殊的城市区域由于流动人口数量庞大,人员复杂,犯罪率高,因此其建筑外环境的防卫安全设计具有重要的意义。文章通过
基因组学是与蛋白组学、代谢组学并列的三大“组学”之一,它在认识论、方法论和思维观等方面都与传统中医学有诸多相似之处。本文正是以此为切入点,通过比较分析两者的相通点,阐