面向科学领域论文摘要的相似度计算研究与实现

来源 :西北民族大学 | 被引量 : 0次 | 上传用户:murrayxu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本相似性度量用来表示文本的语义相似度大小。近年来科学论文数量剧增,科学论文具有很强的针对性、严谨性、段落长、高度程序化等特性,语句结构复杂严谨,包含了丰富的领域知识,专业性极强。论文的摘要部分凝结了主要研究的方法理论、技术、研究过程等信息内容,能表达科学论文主要的研究内容信息,为研究人员高效地、快速地获取有用的内容提供方向。本文以科学论文的摘要为对象,进行文本相似度计算研究。本文以新冠领域科学论文数据集为例,结合知识图谱嵌入技术,构建了图卷积和孪生卷积神经网络的文本相似度计算模型,实验结果表明,在该领域科学论文摘要的文本相似度上取得了很好的效果。具体工作内容如下几个方面:(1)构建COVID-19科学知识图谱。本文采用云南高校的数据科学智能计算重点实验室“COVID-19”论文集、国际顶级医学期刊、中医药核心期刊和西药治疗科学文献组成的数据集。对数据进行预处理,建立了摘要文本的本体,通过本体及实体定义联合知识抽取,引入概念层次和领域知识,构建COVID-19科学知识图谱三元组,最后使用Neo4j对知识图谱进行存储。(2)COVID-19科学知识图谱的无标签化与泛化处理。首先,用表示法对知识图谱进行初始化,保留知识图谱的结构和语义信息,以获得初始化的嵌入向量;接下来,用关系对知识图谱进行初始化,将表征向量分配给结点;将关系分配给边节点;最后,对知识图谱进行关系泛化处理,得到了无标签化COVID-19科学知识图谱。(3)文本相似度计算。结合知识图谱嵌入技术,实体和关系被嵌入到一个连续的矢量空间,保留了知识图谱的原有结构。最后构建图卷积神经网络和孪生卷积神经网络,对无标签化COVID-19科学知识图谱进行特征提取,通过学习知识图谱的特征表示得到文本特征向量来计算相似度,实验中,用Drop_node来抑制图卷积神经网络过拟合现象。
其他文献
随着中国人均寿命的增长和出生人口数量的逐年下降,人口老龄化呈加速态势,老年人群体的健康问题越来越引起全社会的重视,其中健康素养也逐渐成为国家健康促进事业的“窗口”指标。城市的核心家庭化、社会的流动速率加快、子女外出求学及就业等原因导致独居老人现象越发普遍。基于独居老人面临的生活风险偏大、健康状态整体脆弱的特点,健康素养水平的偏低会导致其生命质量下降,因此独居老人群体在健康素养方面的问题需要关注和支
学位
随着时代发展,社会结构的快速变革导致家庭结构也发生了很大的变化,同时,人们的价值观也在悄然改变,尤其处在经济落后的农村地区,长期以来一向稳固的婚姻家庭结构呈现出多样化的特征,离婚、丧偶以及未婚先孕后形成的单亲家庭越来越多,后因家庭生计和人口流动等原因将孩子留在爷爷奶奶或是亲戚身边照看等原因形成的农村地区单亲留守儿童的数量日益增多,单亲留守儿童越来越受到社会的广泛关注,其中单亲留守儿童的学业困境问题
学位
随着社会与人类文明的进步,志愿服务进一步发展,志愿服务的内容更加丰富,参与志愿服务的人群也越来越多样,儿童在社会的号召下也加入了志愿服务的队伍中,成为志愿服务活动的重要储备军。本文以重庆市J社区的儿童志愿者服务项目为依托,运用访谈法、问卷法、参与式观察法等进行调查评估,基于收集的资料分析发现,该社区儿童志愿者社会经验少,身心发展还不成熟,参与志愿服务的技能不足、团队协作能力不够、对志愿服务的认知也
学位
铁道兵部队规模高达四十余万人,如今,这些铁道兵纷纷步入老年,养老问题也伴随出现,从青年时期参军入伍,到后来被撤编并入铁道部工作,再到后来年满退休,他们有着复杂的人生经历。当前我国对年满60周岁的退伍老兵按规定给予抚恤优待,但对他们精神文化需求层面的关注仍显不足。退伍铁道兵退伍退休后存在生活单一、社会各方面资源流失、个体心理落差大等问题,因此如何改善退伍铁道兵精神文化生活,帮助其提升社会参与的积极性
学位
自我国资本市场建立以来,上市企业同时保持高货币资金和高额有息负债“存贷双高”的异象一直是一个普遍存在。从企业内部来看,存贷双高只是企业为满足流动性需要的一种资产配置及财务管理手段,并未引起学者们广泛关注,对此方面的研究也基本仅限于企业管理或财务管理等内部视角。但随着康美药业等存贷双高型企业发生股价崩盘,并引起整个股票市场波动,严重打击投资者信心,阻碍了我国资本市场的深化改革和有序发展。国内学者也将
学位
农村留守儿童是我国经济发展过程中衍生出来的一个弱势群体,其身心健康是国家和社会关注的重要议题。儿童的身心正处于逐渐成熟的过渡期,自我认知尚未完全形成,抵御危机的能力原本就弱,又因为农村留守儿童其自身的特殊性,更容易遭受心理创伤,故本研究以修复农村留守儿童的心理创伤为立足点,探究儿童心理创伤的成因与来源,采用文献法、访谈法、量表法收集资料,分析心理创伤服务对象小Z面临的心理困境,与心理创伤服务对象小
学位
聚类作为最重要的无监督方法之一,长期以来一直是模式识别和机器学习中的一项关键技术,它根据特定标准对数据样本进行分组,从而使同一组内的样本的相似性尽可能大,同时不在同一个组中的样本的差异性也尽可能大。随着互联网和通信技术的快速发展,真实世界的大多数数据都是从不同的来源生成,或者由各种特征采集器描述,这种数据被称为多视图数据。由于在划分无标签的多视图数据上具备优势,多视图聚类吸引了越来越多的关注。然而
学位
伴随着我国城市化和老龄化进程的加快,2022年开始我国老年人口正式进入高速增长时期,越来越多的老年人随着儿女移居到新的城市新的社区,在此背景下衍生出新的社会群体“老漂族”。“老漂族”随儿女离开原有的生活环境,由于年龄、认知、身体、心理等诸多原因,在融入新生活的过程中面临许多困境。社区是“老漂族”融入新环境的第一站,社会工作者通过帮助“老漂族”进行社区融入,使他们在社会角色和生活环境变化时期,自身也
学位
随着计算机技术的高速发展,大数据分析和各行各业密切结合到一起,庞大的信息资源不仅给我们的社会与生活带来诸多的便利,也带来了如何集成以及高效使用这些数据的问题。档案领域是受到信息化发展影响比较深远的行业,随着科学技术的进步,传统档案管理模式已经不能满足档案用户利用的需求。如何进行档案信息资源的整合和资源共享,并向档案使用者提供智能化、个性化的档案知识服务,从而提高用户使用档案的体验,已经成为档案信息
学位
人口老龄化趋势日益严峻,养老问题是每个家庭所关心的“家事。受到不断加快的人口老龄化进程的影响,我国的家庭结构发生了根本性的改变,家庭规模持续小型化、传统的家庭照料功能不断减弱,加之现如今物质生活水平的提高,人均预期寿命得到了延长,老年人在日常照料、医疗救助和精神关怀等方面的需求不断增长。目前我国现存三种养老方式:居家养老、社区养老和机构养老。家庭养老是老人子女为老人提供生活上的服务,但是随着家庭养
学位