基于远程监督的维吾尔文人物关系抽取研究与实现

来源 :新疆大学 | 被引量 : 0次 | 上传用户:baihe0415
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在互联网飞速发展的时代背景下,从海量数据中检索到有价值的信息绝非易事。信息抽取技术在如今得到了快速地发展,关系抽取是信息抽取的一个重要子任务,具有非常重要的研究意义与广阔的应用前景,是近些年来自然语言处理领域的研究热点。目前,面向中英文的人物关系抽取研究已有一定的发展并取得较好的成果,而维吾尔文的人物关系抽取因为起步较晚,且资源匮乏,还需进一步研究。本文使用远程监督方法构建维吾尔文数据集,为降低噪声对人物关系抽取的影响,采用双层自注意力机制的模型,以提升人物关系抽取效果,最后构建了人物关系搜索系统。本文的主要工作和创新点如下:(1)针对维吾尔文人物关系抽取标注数据集匮乏的问题,本文采取远程监督的方法,将自由文本与知识库匹配对齐来生成标注数据集。首先收集天山网、人民网等网站的维文自由文本;其次爬取大量维基百科的词条数据,整理并生成关系三元组作为知识库,以此作为监督来源;最后将自由文本与知识库进行匹配对齐来获得相应的关系标签,自动生成丰富的维吾尔文标注数据集,用于进行接下来的人物关系抽取实验。(2)针对远程监督方法会带来大量噪声以及特征选择不全面的问题,提出基于双层自注意力机制的DTSSA模型来进行维吾尔文人物关系抽取。该模型采用多实例学习方法,通过双向递归神经网络Bi LSTM结合双层自注意力机制进行关系抽取,将单词级和句子级的注意力机制由传统一维向量表示改进为二维结构化矩阵表示。一方面,使用Bi LSTM可以更好地学习双向的上下文语义特征;另一方面,改进的二维单词级自注意力机制可以关注一个句子实例更多方面的特征,二维句子级自注意力机制可以更好的选择有效实例,降低了噪声实例影响。在维吾尔文人物关系抽取标注数据集上进行实验,结果表明基于双层自注意力机制的DTSSA模型在P@N准确率和F1度量方面均有提升,证明模型的有效性。(3)根据以上理论研究,设计实现了一个基于B/S架构的维吾尔文人物关系搜索系统,将人物关系以图谱的形式进行可视化的直观展示,并依靠系统开放给用户的增改功能,可以进一步丰富现有知识库,从而提高数据集质量。
其他文献
目前在前驱式纯电动汽车制动能量回收控制策略的研究中,研究者多关注于踩制动踏板进行能量回收,而对其他阶段的能量回收研究相对较少。另外在踩制动踏板阶段,前轮制动力主要是由电机再生制动力与机械制动力按照不同的比例进行分配,这样的分配方式不利于电机再生制动力矩最大化的发挥。针对以上所存在的问题,本课题从两点进行改进,第一点是加入了收加速踏板能量回收阶段,第二点加入滑行阶段来充分发挥电机再生制动扭矩。本课题
随着中国经济的快速发展,大量土地资源被大规模开发利用,导致受污染的土地面积逐渐增加,威胁到了生态环境稳定和农业生产安全。因此迫切的需要开展土壤污染防治工作。土壤水分和土壤盐分作为影响干旱区土壤生态环境的主要因素,对土壤水盐分布状况进行及时、准确的监测是掌握干旱区土壤状况的关键。本研究将以新疆阿克苏地区的渭库绿洲为研究对象,利用Dobson介电模型进行土壤介电特性分析。以Sentinel-1A微波数
语音识别(Automatic Speech Recognition,ASR)是通过计算机将语音转换为文字的过程。随着神经网络的不断发展,海量数据背景下(如中文和英文)的语音识别系统表现良好,识别的词错误率极低。维吾尔语属于低资源语言,由于缺少足够的训练数据,维吾尔语语音识别系统准确率较低。本文主要通过深度学习技术,针对低资源条件下的维吾尔语语音识别系统的声学建模进行研究,主要工作如下:(1)本文通
目的及意义:本试验使用雪白睡莲花(Nymphaea candida,N.candida)作为材料,采用响应面分析法结合超声波辅助提取法对雪白睡莲花中总黄酮(Total flavonoids from Nymphaea Candida,NCTF)的醇提工艺和雪白睡莲花中粗多糖(Crude polysaccharides from Nymphaea Candida,NCCP)的水提醇沉工艺进行研究分析
图像分割是腹部器官计算机辅助诊断和手术规划的关键步骤。然而,在传统方法中,放射科医生通常使用手工描绘器官,这种方式既耗时又费力,降低了诊断和治疗的效率。近年来,随着医学图像分割技术的发展,使用计算机自动分割病人的CT、MR等腹部图像来辅助医生诊断和治疗病人,减轻了放射科医生的工作量。由于腹部器官图像受到强度不均匀、弱边界、噪声和相似物体相互靠近的影响,给腹部器官图像分割带来了一定的困难。如何在腹部
裂腹鱼亚科(Schizothoracinae)鱼类隶属于硬骨鱼纲(Osteichthyes)鲤形目(Cypriniformes)鲤科(Cyprinidae),是分布于青藏高原及其周边水域中的特有鱼类,在新疆主要分布于塔里木河流域及伊犁河流域,是重要的环境生态指标生物。裂腹鱼类的生存环境较为特殊,形态鉴定尤为困难,因此其分类一直存有争议;另外,有关新疆裂腹鱼类单殖吸虫病原的研究较少。本研究采集了5种
新疆地区是我国畜牧业大省,奶产业在新疆经济中占有重要的地位,但随着新疆奶牛产业规模的不断扩大,奶牛乳房炎的流行严重制约了奶产业的发展,给奶牛业造成了严重的经济损失。本研究的目的是为了摸清新疆部分地区奶牛乳房炎乳汁中微生物群落的多样性和主要致病菌的流行情况,为奶牛乳房炎的防控提供参考。方法:1.分别从2个随机挑选的牛场采集临床型乳房炎奶牛乳汁样本和健康奶牛乳汁样本,对其进行细菌的16S r RNA基
新疆某石油企业(X石油企业)积极推进数字化建设,致力于推动石油生产相关平台的建设。该企业原有的石油数据动态监测系统过于老旧,不仅无法满足和适应企业发展的实际需求,同时也面临着功能扩展难的迭代升级瓶颈,对后续数字化转型造成了极大阻碍。因此,结合数字化应用场景并基于微服务架构对平台进行重构,从而构建出全新的石油数据动态监测平台,已经成为了企业需要解决的迫在眉睫的难题。本文立足于石油企业数字化转型升级的
土壤呼吸是大气CO2重要来源之一,对全球碳循环有至关重要的作用。草地生态系统是陆地生态系统碳库的重要组成部分,影响着全球碳循环的过程与生态后果。山地草甸是新疆喀纳斯景区重要的旅游资源,其独特的景观美学价值和植物多样性被认为是研究草地生态系统对旅游干扰响应的理想区域。过去的研究报道了旅游干扰对山地草甸群落物种组成、生产力、土壤生物和理化性质以及景观美学价值的影响,然而旅游干扰对土壤呼吸特征及影响因素
因意外事故和医源性损伤引起的周围神经缺损,患者若得不到及时的治疗,有可能导致终生残疾。神经缺损长度超过5mm时,神经末端无法端对端缝合,需要神经移植来桥接缺损。自体神经移植被公认为是治疗神经损伤的金标准,但存在供应有限和供体部位发病的缺点。而神经导管通过提供物理引导和生物线索,在桥接周围神经损伤方面有很大的前景,越来越被认为是自体神经移植的潜在替代物。本文提出了静电纺丝和3D打印结合的方法制备了多