基于知识的义原预测方法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:myloft1d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
义原是语言学家定义的不可分割的最小语义单位,一个词语的任何含义都可以使用有限封闭的义原集合内的元素组合表示。目前义原资源主要来自知网(Hownet),为两百多万中文和英文词语的标注义原信息,并在自然语言处理研究中得到广泛使用。义原信息主要由手工标注和维护,花费大量人力物力,使得义原资源无法大规模运用和自动更新,同时义原标注信息受限于中文和英文两种语言,制约了义原信息在其他语言任务中的应用,因此,实现义原自动化标注,为其他语言丰富义原信息的任务迫在眉睫。为解决上述两个问题,研究人员提出了义原预测以及跨语言义原预测任务,分别为单语言和多语言环境的词语提供义原信息的自动化标注。现有研究多利用词语的词向量信息、外部百科或词典定义信息实现预测;在跨语言义原预测方面,则通过对齐两种语言后转化成单语言预测任务实现。本文挖掘词语关系,从词语间关系角度重新定义义原预测任务,通过引入中文本土哈工大同义词词林扩展版知识图谱,对词林知识图谱和Hownet知识图谱中的词语关系进行融合形成,构建了全新的知识图谱(CH-Graph),以提供词语间关系信息。围绕CH-Graph对基于知识的义原预测任务展开研究,工作如下:(1)在义原预测方面,受图翻译系列模型启发,重新定义了义原预测任务,将预测任务转换成在知识图谱内求解目标词语对应尾实体问题。并提出了基于知识信息的义原预测模型KGSP模型,利用CH-Graph中关系信息完成义原预测任务。(2)在跨语言义原预测方面,延续现有模型“对齐”和“预测”的模型结构。本文提出了知识增强的跨语言词向量对齐方法,以及三种跨语言义原预测系列方法CKSP-S、CKSP-V、CKSP-D分别在源语言(中文)单侧、目标语言(其他语言)单侧、以及源语言与目标语言两侧融入知识图谱内信息实现基于知识的跨语言义原预测。本文随后在Hownet义原知识图谱中进行了实验,实验结果证明了基于知识图谱关系引导的预测模型,在义原预测任务和跨语言义原预测任务上的有效性和可行性,并针对单模型提出了单语言预测与跨语言预测模型的组合模型,模型组合后增强了现有模型的预测精度,达到研究的预期效果与目标。在文章最后设计了知识图谱检索与义原查询的原型系统,用于展示预测效果,并使用微服务框架对外提供预测算法服务。
其他文献
近年来,机器学习(Machine Learning,ML)和自动化语音识别(Automated Speech Recognition,ASR)技术日渐成熟。语音输入替代文字键盘输入成为可能。然而,在一些专业技术领域,由于多采用专业技术术语,给语音输入提出巨大挑战。一个最主要的问题是带有标签的专业语音数据量较少,无法满足自动语音识别系统训练的数据量需求,进而导致语音识别模型过拟合,语音识别准确度不高
学位
异构网络是具有多种类型顶点(对象)和边(链接)的有向图,其不但能够表达丰富的结构和语义信息而且可以更加自然地抽象现实世界。凝聚子图发现作为图挖掘中的一个基础且重要的问题在异构网络中同样有较高的研究价值,并已成为该领域研究的重点和热点问题,也在社区发现、故障检测和生物研究等方面有着重要应用。为此,本文深入研究了两种不同异构网络中的凝聚子图发现问题并给出了对应的算法设计以及具体的应用案例。第一,研究了
学位
自然语言处理的研究目标是实现对自然语言的理解,这种“理解”被应用到很多领域,如:问答任务,阅读理解任务,文本摘要任务等,其中文本摘要任务指基于对源文本的“理解”得到精简摘要,在读者阅读大量文本内容时,这项任务能帮助读者减少阅读量,提高阅读效率,因此对文本摘要任务的研究具有十分重要的意义。的方式主要有抽取式和生成式,抽取式指抽取文本重要内容拼接成摘要,但如果对文本特征提取的不全面会丢失关键信息,生成
学位
近年来,依托于深度学习等人工智能技术的革新,人脸绘制技术逐渐成为专家学者们的研究热点,在刑事侦查、数字媒体、教育培训、影视娱乐等领域中应用广泛。基于面部特征的人脸绘制技术,是通过深度学习获得真实人脸图像与面部特征的对应关系,根据用户绘制的面部轮廓特征,实时生成二维图像,逐步逼近真实世界中的人脸。但目前的人脸绘制技术依赖于大量的人脸特征数据集,生成的人脸结果存在可控性差、细节不够清晰等问题,因此,本
学位
机器阅读理解要求计算机根据给定的文本回答问题,是一项能衡量机器对人类语言理解程度的任务。随着深度学习技术的发展,机器阅读理解相关研究取得重大进展。尤其是在英文领域,近些年发布了多个大规模高质量数据集,使得很多基于深度学习的经典模型在英文机器阅读理解任务上表现得非常出色。然而中文领域的研究起步较晚,进展相对缓慢。由于语言特点的差异,一些在英文数据集上表现出色的经典模型在处理中文文本时不能达到同样的效
学位
物联网(Io T)设备和流媒体平台的兴起使动态数据或流数据爆发式增长,基于数据进行准确高效地预测在能源、医疗、金融等领域具有广泛的应用。随着物联网技术的发展,工厂中引入了大量的传感器,其采集到的运行数据能够直接反映设备的状态。充分挖掘传感数据中的信息提前预警,对保障工厂的平稳运行具有重大意义。本文基于火电厂传感数据,深入研究了数据分布发生变化情况下的多变量时间序列预测问题。为了提高时间序列预测的精
学位
私家车数量上涨导致交通事故量增加是现今社会面临的一个难题,研究汽车在驾驶场景下如何检测和规避前方障碍物、提升驾驶的安全性则是解决这个问题的关键,本文研究以运动中动态障碍识别技术为基础的防碰撞预警系统。预警系统的实现除了依靠科学合理的预警模型,还依赖检测算法的实时性和准确性。但目前的目标检测算法大多检测速度过慢,难以在车载设备上达到实时检测的要求,而能满足实时性的改进算法又普遍精度过低。故针对以上问
学位
数字经济时代迫使企业不断优化其业务过程以提升效率及市场竞争力。与此同时,信息化的发展、数字化的转型使得企业的信息系统在执行业务过程中产生了大量的事件日志,其中隐含了企业资源、过程、过程活动等有价值信息。企业基于事件日志的分析可以识别即将发生的业务过程活动,能够规避信息误差带来的资源浪费,或过程实例持续执行带来的资源冲突,从而更好地进行资源分配,帮助其优化业务过程。然而,基于海量事件日志进行过程活动
学位
硅纳米线场效应生物传感器由于灵敏度高、操作简单且与CMOS工艺兼容等优势成为未来最有希望应用于现场快速检测的设备之一。但目前硅纳米线及其他场效应型生物传感器在现场快速检测中都面临着高离子强度溶液导致的强德拜屏蔽效应的问题,严重限制了其发展。本文基于环栅工艺设计并制备了一种三维堆叠硅纳米片结构,利用空间结构克服德拜屏蔽效应,实现高离子强度溶液中的直接DNA检测。本文的主要研究内容及成果如下:1.提出
学位
我国冲击地压研究一直以重力作用为前提,构造应力(由于地质构造作用引起的应力,大多为水平方向)在冲击地压孕育演化过程中的作用规律及特点尚不清楚,制约了深部高水平构造应力巷道冲击地压的防治技术发展。因此,深入开展深部高构造应力巷道冲击地压孕育演化规律研究工作,分析深部高构造应力巷道冲击地压发生机制,对深部高构造应力区矿井冲击地压灾害防治具有重要的理论和实践价值。论文采用实验研究、理论分析等手段,对深部
学位