面向跨境民族文化领域的文本检索方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:shanchy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网大数据时代的到来,越来越多的信息从书面存储转向了网络存储,数字技术在人们的工作生活中的各个方面都体现的淋漓尽致,越来越多的检索系统被应用到了不同场景下进行信息检索。对于跨境民族文化领域来说,由于人们对于跨境民族文化间的差异了解需求逐渐增加,如何快捷有效的对跨境民族文化文本进行检索,是目前最为重要的任务。因此,本论文通过对跨境民族文化领域文本检索进行研究,可以让人们对于跨境民族文化的了解更加方便快捷。本文的主要工作如下:(1)跨境民族文化知识图谱构建为了使跨境民族文化文本检索的结果更加准确,本文通过构建一个跨境民族文化知识图谱来辅助检索。通过调查研究,选取所要研究的本土民族为傣族、彝族,跨境民族包括傣族的跨境民族泰族、掸族、佬族和彝族的跨境民族倮倮族;定义跨境民族文化知识图谱的分类体系以及数据模式,并且根据定义好的跨境民族文化分类体系从现有的知识图谱和百科类网站的Infobox中来进行相关三元组知识的抽取,总共获取相关的知识三元组863条,将这些三元组导入Neo4j图数据库完成跨境民族文化知识图谱的构建。(2)融合实体向量的跨境民族文化文本分类方法针对跨境民族文化领域的文本语义环境复杂,特征质量参差不齐的问题,提出一种融合实体向量的跨境民族文化文本分类方法。首先利用Trans E模型对跨境民族文化知识图谱中的知识三元组进行向量化表示,得到实体向量、关系向量以及实体的标签向量,把这三种向量进行融合得到实体的语义向量;并且使用BERT预训练模型对文本中的每个词语进行向量表征,通过文本中实体的位置信息把相应的实体语义向量与BERT模型表示的实体词向量相融合,然后采用Bi GRU神经网络模型进行模型训练,最终得到训练好的跨境民族文化文本分类模型,利用训练好的模型来对爬取到的数据进行分类,把分类好的数据作为待检索数据。(3)基于实体语义扩展的跨境民族文化文本检索方法针对用户输入的Query语句语义稀疏的问题,提出一种基于实体语义扩展的跨境民族文化文本检索方法。首先对用户通过输入的Query文本进行预处理,把预处理后的词语分别映射到跨境民族文化知识图谱中,返回包含该实体的三元组以及这些三元组中实体的标签信息;然后把这些知识三元组和实体标签信息通过Trans H模型进行向量化表示,并且把这些相关的关系向量以及实体的标签向量融合到相应的实体向量中,得到扩展后的实体语义向量,把扩展后的实体语义向量融合到Query的实体向量中,对Query中的实体进行语义扩展;再分别利用卷积神经网络提取查询文本Query和待检索文本Document的n_gram文本特征,把Query的文本特征向量与Document的文本特征向量分别进行相似度计算,得到相应的相似度向量,然后把这些相似度向量通过高斯核函数映射到语义空间中得到新的特征向量,利用排序学习中的Point Wise方法来计算Query与Document之间的相关性,最终完成模型的训练,并且利用训练好的模型来根据Query检索出相应的Document文本。(4)跨境民族文化文本检索原型系统的设计与实现使用Django框架构建跨境民族文化文本检索系统,该系统主要分为四个功能模块,分别是实体查询模块、关系查询模块、文本分类模块以及文本检索模块。其中,实体查询模块的主要功能是根据用户输入的实体来查询与该实体直接相关的其它实体;关系查询模块则是通过用户输入的两个实体来查询这两个实体之间存在的关系;文本分类模块则是把用户输入的文本来进行分类,确定该文本的类别标签;文本检索模块是根据用户输入的Query查询文本,通过调用训练好的跨境民族文化文本检索模型从已经分类完成的跨境民族文化文本数据集中检索出相应的文档。
其他文献
城镇化是社会经济发展的主要驱动力和必然趋势,是人类社会进步的象征。随着社会经济的加速推进,城镇化发展的重点任务转向优化结构和提高质量,新型城镇化是实现这一目标的必由之路。2011年我国出台《主体功能区规划》,提出城镇化和工业化开发要与地区的资源环境承载力相适应。因此,在新型城镇化建设过程中要充分结合地区的主体功能定位进行适宜性开发。文章将新型城镇化建设与主体功能区建设结合起来,以宁夏为研究区域,基
热、超高压结合一些化学物质能够对芽孢内膜流动性及通透性产生一定的影响,芽孢内膜流动性及通透性的变化,可能是导致芽孢被杀灭的重要原因。因此,本文以枯草芽孢杆菌芽孢为研究对象,首先对1,6-二苯基-1,3,5-己三烯(DPH)荧光探针标记芽孢内膜的条件进行优化,然后通过荧光偏振法和流式细胞术研究不同处理下枯草芽孢杆菌芽孢内膜流动性和通透性的变化,同时采用分光光度法检测芽孢内容物的释放情况,并利用平板计
通过近年来全国上下的不懈努力,国家“十三五”规划目标逐渐落实,社会发展迅速,人民的经济收入和生活生平也得到了显著的提高,西部地区的经济开发作为国家长期以来的经济战略方针,需要在新时期、新常态下坚决贯彻。陕西省的产业结构在各项政策的引导下持续转型,以服务业为代表的第三产业在政府的各项政策支持下蓬勃发展。西安作为世界著名的旅游热点,在过去长时间专注于利用历史遗留的人文景点,而传统的观光型旅游方式虽然成
纳米晶SmCo/Fe双相复合材料和SmFeN单相材料,因具有超高的理论磁能积和较高的居里温度而获得广泛关注,但该类材料由于缺乏充分的微结构调控而磁性能不高,针对于此,本文以SmCo/Fe双相复合材料和SmFeN单相材料为研究对象,开展了高能球磨下SmCo/Fe和SmFeN永磁粉体的调控制备和磁性能研究。研究结果表明,(1)对原料成分为真空熔炼SmCo3、SmCo4和SmCo5铸锭进行XRD和VSM
原苏木素A是传统中药苏木的有效成分之一,在药理和临床研究上证实其具有抗肿瘤、免疫抑制以及抗HIV-1整合酶等多种生物活性。目前尚没有原苏木素A衍生物的相关报道,导致药理学家无法对原苏木素A衍生物的生物活性进行深入研究,因此合成原苏木素A衍生物可以更加充分地研究这一类化合物生物活性。首先设计了一条原苏木素A衍生物的合成路线:以酚类化合物为原料,经过碘代、缩合醚化、分子内C-H键活化/C-C键环合、羰
现阶段,高质量人才的培养是我国教育发展战略的重点。教育部2011年制定的《义务教育地理课程标准》提出“学习对生活有用的地理”的基本理念,2014年发布的《关于全面深化课程改革落实立德树人根本任务的意见》提到“各级各类学校要从实际情况和学生特点出发,把核心素养和学业质量要求落实到各学科教学中。”因此,研究以培养初中生核心素养为目标的地理生活化教学策略,对于满足学生生活发展需要的基本的知识需求、提高初
全无机α-Cs Pb I3钙钛矿材料以其较高的光吸收率,合适的带隙及其良好的稳定性在太阳能电池,发光二极管等光电探测器领域的探究受到人们的广泛关注,但由于α-Cs Pb I3钙钛矿材料中含有Pb元素,会对环境造成污染,影响了工业化生产,所以在保证太阳能电池的光电转化效率的同时降低Pb含量就显得尤为重要。本论文采用与Pb同一主族的Ge,Sn,Si元素全部替代与部分替代钙钛矿材料中的Pb元素,对材料的
肺癌一直是世界上最常见的癌症,仅次于乳腺癌和前列腺癌的第三大常见癌症,癌症死亡中占最大比例,且预后不良。肺癌早期一般不产生明显的症状,因此大约60%的人在诊断时都已经处于疾病晚期,无法接受手术治疗。患者5年内生存率不到15%。如果能早期发现肺癌,及时进行手术切除治疗,患者术后死亡率可降低到2%。因此早期诊断对于提高肺癌患者的生存率及改善预后有至关重要的作用。肺癌的传统诊断方法主要包括影像学检查、支
机器翻译已经取得了很好的翻译效果,并且随着神经机器翻译的发展,使得翻译质量得到了进一步的提升,更加的方便了各国人民的交流。然而,进行机器翻译需要大量的平行语料,缅甸语属于资源稀缺型语言,互联网上公开的汉-缅平行语料很少,导致了汉语和缅甸语之间的翻译发展缓慢。为了解决平行语料少导致翻译质量差的问题,有关人员研究了多语言联合学习的神经机器翻译,利用资源丰富的语言来提升资源稀缺型语言的翻译效果。多语言联
非酒精性脂肪肝(NAFLD)是一种广泛存在的慢性肝脏疾病,发病率逐年提高,严重危害到人类健康。NAFLD发病机制复杂,至今还未阐明清楚,比较认可的是“二次打击”学说,认为胰岛素抵抗(IR)是NALFD发生发展的核心环节,脂质代谢紊乱是它的启动因子。目前还没有研究出具有确切疗效的防治NAFLD的药物供患者使用。本研究旨在通过建立三种常见的NAFLD大鼠模型,考察由临床经验方发展而来的健脾疏肝颗粒对N