基于内容深度揭示的科技文献多维聚合研究

来源 :东北电力大学 | 被引量 : 0次 | 上传用户:anbao01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科技文献数量的爆炸式增长,如何在浩瀚的检索资源中精确定位自己所需要的知识变得尤为重要。传统的以文献为单位的知识组织方式,主要是从篇名、主题、作者、关键字、参考文献等外部特征进行研究,或者对单篇文献中的知识对象和语义关系进行文本揭示,缺乏对相同主题文献间内容的深度挖掘与组织,导致科技文献内容知识大多仍以“游离态”存在,知识间缺乏协作,难以生成跨文献的知识簇和知识链。本文针对所存在的问题,在借鉴现有有益研究成果的基础上,提出了基于内容地图的科技文献内容深度揭示方法,该方法以科技文献为主要研究对象,通过文本挖掘技术对科技文献集中的文本片段内容进行核心知识对象及其之间的语义关系进行提取,构建多篇科技文献内容地图,并基于内容地图来实现文献内容知识的细粒度描述、多维度聚合。整个研究包括三个关键问题:(1)如何从科技文献中提取符合研究所需的核心知识对象及其之间的关系:(2)如何将提取得到的核心知识对象和关系利用图结构进行表示;(3)如何借助内容地图实现科技文献内容知识的深度揭示和多维聚合。论文针对这三个关键问题,做了以下三方面的研究:(1)在将原始文本数据集进行丰富化处理后,设计了基于领域词典的文献知识对象及其关系提取方法;(2)考虑语义集合与语义子集合中知识对象的关系强度,提出了知识对象重要度计算公式,并基于此公式进行知识对象排序和语义子集合的提取,来构建科技文献内容地图;(3)提取基于内容地图的“向下揭示,向上聚合”的科技文献内容深度揭示方法,借助已构建的多篇科技文献内容地图,在平面空间和立体空间生成跨文献的知识簇和知识链,并实现文献知识间的推理,从知识对象、语义关系、知识单元及统计等维度,实现科技文献内容知识的深度聚合。论文选取PubMed数据库中“Ebo1a”主题相关的172篇文献构建文本集,选用其标题和摘要作为原始数据集,对整个研究提出的方法开展有效性实验。通过将本文方法得到的实验结果与广泛使用的LDA方法、Louvain算法得到的结果进行对比分析,以及将本文方法聚合结果与原文献内容进行回溯对比分析,结果表明本文提出的方法能够将科技文献的知识组织方式由文献外部特征深入到其内部特征,能够对科技文献内容知识进行深度揭示,可以实现科技文献内容知识的细粒度描述和多维度聚合。
其他文献
发光二极管(LED)作为新一代绿色照明光源,具有高效、节能、环保、寿命长的优点,在节能减排、低碳发展中发挥了重要作用。现在,四元系AlGaInP材料制备的LED波长可以覆盖红、橙
与大多数已知Yb离子激光晶体相比,单斜结构的Yb:KLu(WO4)2晶体具有大的受激发射截面和短的荧光寿命,特别适合于由被动调Q产生高重复率脉冲激光运转。本论文工作中,我们在光纤耦
随着我国多层次的资本市场得到快速发展,特别是2019年科创板的推出,实体企业的融资渠道得到进一步拓宽,但能直接通过资本市场进行融资的企业占比是非常小的,大多数企业还是依
本文为翻译实践报告。本次翻译实践选取的文本是国外计算机数据挖掘领域论文的摘要。所选文本来自ACM Transactions on Database Systems期刊,总计44篇论文摘要。笔者首先介
近年来,随着电力体制改革的稳步推进,各火力发电厂正积极地推进全面深化改革,发展信息化、智能化的火电机组信息系统,为下一步智慧电厂的发展奠定基础。目前,我国火力发电产
含三氟甲基的化合物在医药、农药和有机材料等方面有着重要的应用,主要由于三氟甲基的引入可以提高化合物的亲油性和稳定性。开发和利用不同的三氟甲基源是发展三氟甲基化反
最新的基于格的密码体制几乎都直接基于如下两个平均复杂性的问题:最小整数解(SmallestInteger Solution,SIS)问题和误差学习(Learning With Errors,LWE)问题。人们提出了很
能源是人类社会发展的重要物质基础。近些年来,随着国民经济的持续快速发展,能源的需求量不断扩大,能源短缺问题、生态环境问题日益突出。锅炉作为工业中重要能源转换的设备
云计算是一种以有偿提供计算资源作为服务的商业化模式,其中,如何根据集群负载与用户服务水平,对资源进行合理、有效的分配是云计算研究的重点。但目前云计算的容器领域中还
太极拳典籍不仅汇聚拳法,还包含中国哲学、中医等思想的精髓,在中国文化对外传播进程中,发挥太极拳这一独具中国特色元素的文化优势对中国传统文化的弘扬、中国软实力的提升