基于DB-LSTM-SRL模型的统计文献挖掘领域语义分析研究

来源 :东北财经大学 | 被引量 : 0次 | 上传用户:ruocich
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语义分析是基于自然语言进行语义信息分析的方法之一,旨在通过句子的语义结构表示语言的结构。语义分析属于人工智能领域内的一个分支,是自然语言处理的基础核心任务之一,也是实现各种智能系统的关键技术,为知识图谱、智能问答、自动驾驶等应用提供了基础。近年来,随着互联网、信息行业的高速发展,各行各业开始建设以“大数据”为导向的数据中台信息管理系统。同样,在学术界,“大数据”已经成为各个学术领域研究的热点。经统计,在现实世界中,80%的数据是以文本的形式存在,而只有20%的数据是数值型数据。特别是以电子形式存储的期刊文献数据,相较于普通Web文本数据,蕴含了更加丰富的价值。但随着网络化进程的加快,每天数以万计的电子文献资源被收录在各大期刊网站上,如何快速挖掘理解期刊文献资源就显得尤为重要。基于以上原因,本文以《Journal of the American Statistical Association(JASA)》网络期刊作为研究对象,先后以LDA主题模型和深层语义角色标注模型(DB-LSTM-SRL)对学术期刊文献进行由浅入深的挖掘研究。本文主要工作包括:(1)利用网络爬虫技术在文献网站上获取《JASA》期刊从2000年1月至2020年12月刊登的全部文献数据,包括期刊文章的发表年份、卷号、期号、标题、作者、关键词以及摘要。并对获取的期刊文献数据进行文本数据预处理,包括去除特殊文本符号、英文分词、大小写转换、去停止词、词根还原等操作。(2)对《JASA》期刊进行描述性分析,通过描述性分析了解期刊文献发文的基本情况,主要包括科研年产出分析、作者发文量分析、高频关键词及趋势分析。利用LDA主题模型对《JASA》期刊进行主题建模,挖掘《JASA》期刊的主题以及主题空间和时间分布情况。(3)利用CONLL 2012共享数据集构建深度神经语义角色标注模型(DB-LSTM-SRL)。对模型中batch size、dropout rate以及激活函数参数进行调整并且引入ELMo词向量对模型进行优化。运用构建的最佳模型对《JASA》统计期刊文献进行语义分析,深入挖掘文献语义知识结构,并以知识图的形式呈现出来。首先通过对《JASA》期刊文献作者、关键词以及摘要进行描述性分析发现:从文章年产量来看,2000-2020年期间,《JASA》期刊文章产量局部有所波动,总体上缓慢上升;从作者发文量来看,76.05%的作者发文量为1篇,而4.19%的作者发文量在5篇以上,文章高产作者较少,低产作者较多;从关键词频次来看,频次前三的关键词依次是“MCMC”、“Variable selection”、“Causal inference”,期刊收录文章整体偏数理统计方向。其次通过对《JASA》期刊文献标题进行主题建模发现:《JASA》期刊文献共包含8个研究主题,从空间上来看,统计优化方法,占比21.07%、变量选择方法,占比18.78%、统计回归问题,占比14.74%、统计模型理论,占比13.26%、统计应用,占比9.85%、统计分布问题,占比7.81%、统计预测问题,占比5.81%以及其他,占比8.69%;从时间上来看,2000-2008年期间,《JASA》期刊研究热点主要集中在统计优化;2008-2017年期间,其研究热点主题主要集中在变量选择方法上;2017-2020年期间其研究热点主要集在统计优化和变量选择上,直至2020年,回归问题开始成为主要研究主题。最后本文构建的基于ELMo词向量的深度语义角色标注模型(DB-LSTM-SRL)相较于基于GloVe词向量模型,F1值提升3.2%。另外,通过两篇文献摘要的语义分析结果,借助neo4j图形数据库,成功构建文献摘要知识结构图,并能将其成功连接。
其他文献
随着我国创新驱动战略的实施,创新已然变成推动国民经济发展的根本动力。因此,怎样提升员工的创造力已变为许多企业迫切解决的问题。在提高员工创造力过程中,领导者行为是至关重要的因素。现有研究表明,作为创造力的核心来源,员工可以通过组织的广泛知识分享来影响他们的创造力水平,而知识分享的意愿与效果又与组织氛围密切相关(如团队风险倾向氛围,创新自我效能氛围,人际信任氛围等)。因此,本文采用实证研究方法,研究在
学位
电力工业是经济的血液,其发展迅猛逐渐受到世界上各个国家的普遍重视。但由于电力本身的特性以及各项因素的共同作用影响,电力需求序列呈现出高度的波动性、自相关性、季节性和随机性,这成为影响世界各国电力系统安全稳定运行的关键因素。要避免电力需求序列的这些特性对各国电力系统的运行产生不良影响,要求我们必须能够准确的预测短期电力负荷需求。然而,传统的线性预测方法无法满足电力需求序列的波动性、不确定性、自相关性
学位
社会阶层结构是社会结构的核心部分,能够反映各阶层成员在社会结构中的相对位置。随着各阶层之间的关系变得越来越复杂,研究以何种标准划分社会阶层更适应当前中国的社会情况就显得尤为重要。改革开放后,职业逐渐成为划分社会阶层的新标准,基于职业的划分标准更能从整体上客观地反映社会阶层结构。职业量表是基于职业测度社会阶层结构的一种工具,利用统计技术从职业的不同维度揭示职业群体在社会结构中的位置。目前国内学者普遍
学位
近年来随着我国高度重视住宅产业化发展,国务院要求“十二五”期间要着力推广预制装配式住宅体系,国内沿海和内地发达大城市都相应的对住宅产业化的建设比例提出了明确的目标,为更好的保障和提高装配式建筑节点的可靠性,就需要进一步完善对装配式框架节点的抗震性能研究。本文对于当前常见的装配整体式结构的各类节点和整体抗震特性展开深入研究。针对平面框架中含有的十字型节点、两类T型节点和L型节点,依照现行标准和规范要
学位
保障房用于满足居民的基本住房需求,其社会效益大于经济效益,国家在其建设过程中倾斜了大量资源。保障房建设具有投资回收期长、资金需求大、经济效益较低等特点,导致其资金缺口较大,而相关资产证券化产品通过信用增级可降低信息不对称产生的风险,帮助发行者顺利融资。“国开证券—温州生态园”保障房绿色资产支持证券专项计划是国内首单绿色保障房资产支持专项计划,于2020年6月4日在深交所挂牌交易。本案例采用了结构化
学位
在大型社会调查和人口普查中,一般都会采用开放式问题对被访者职业进行询问,传统的职业编码由专业人员使用全人工方式对这些原始回答文本进行编码,手动编码既费时又昂贵并且需要大量的专业知识。目前关于自动化职业编码的研究主要集中在英文文本领域,中文职业文本的自动编码研究几乎空白。本文基于中国劳动力动态调查(CLDS)2016年数据集,测试了四种不同的机器学习分类器,分别是朴素贝叶斯、逻辑回归、随机森林以及深
学位
茶树遗传转化技术迄今为止没有被建立,主要受制于茶树农杆菌转化效率低下和茶树再生速度缓慢两个问题。目前已经有基于发根农杆菌转化产生茶树毛发根的报道。而茶树再生过程中,愈伤组织诱导率低、幼苗畸形率高和幼苗生长缓慢的问题亟待解决。本研究,首先优化了茶树愈伤诱导体系并完善茶树再生体系,接着基于农杆菌介导的基因瞬时表达技术,比较了茶树不同组织器官的基因瞬时表达效率,筛选了促进茶树愈伤再生的相关基因。本研究论
学位
期刊
我国汽车保有量逐年上升,道路基础设施快速发展;与此同时,较大的道路交通事故量凸显出道路交通安全问题的严峻性。在我国,当前以设计速度理论为道路线形设计基础,线形设计指标极限取值可能导致道路设计不合理,缺少考量道路线形对碰撞事故后车辆行驶安全性的影响。为了减少车辆碰撞事故的发生,提高车辆碰撞事故后的道路安全性,本文开展了基于交通事故碰撞动力学的道路线形优化与车辆行驶安全性的研究。通过碰撞事故现场勘察的
学位
历史街区旧建筑风貌需要保持,外墙与屋盖不能拆除,但其承重与安全性能难以满足现代使用的要求,修缮加固工程往往只能在狭窄户内施工。本文通过实地调研,分析了福建历史街区旧建筑的主要特征,由于这类建筑邻户共墙,开间窄、进深大、楼层较高,涉及复杂产权,导致修缮工程操作空间小、施工需谨防墙体坍塌,常用加固改造方法难以使用,需要研究新方法。鉴于旧有承重体系无法再用,提出在户内新植钢框架,用以承担全部荷载,同时对
学位