基于SciBERT模型的引文上下文识别系统优化

来源 :情报工程 | 被引量 : 0次 | 上传用户:modlong
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的/意义]本文介绍一个用于从英文学术文献中提取显性引文句和隐性引文上下文的系统.该系统基于SmartCiteCon(SCC)系统对识别模型进行了优化,本文称该系统为SmartCiteCon2.0(SCC2.0).[方法/过程]该系统的识别模型部分通过Python语言编写,基于经过微调的SciBERT模型构建而成.该模型基于国际计算语言学协会(ACL)会议论文集中人工标注的27,832个引用上下文句子对进行训练,并以SCC系统使用的SVM模型作为对照组以验证效果.[结果/结论]实验结果表明,微调后的SciBERT模型的F1值为90%.相比仅使用句子对文本特征的SVM模型F1值提升了11%,相比于使用全部特征SVM模型的F1提升了3%.在该模型基础上,本文构建的SCC2.0系统开箱即用,支持PDF,以及符合特定标准的XML和JSON格式的学术文献.该API同时支持单文档处理和多文档并发处理,源代码发布于https://gitee.com/Lan_Tianchen/smart-cite-con.
其他文献
高质量是我国物流业发展的基本方向和趋势.物流高质量发展对区域现代物流高技能人才的数量、结构和质量等都提出了新的要求.本文以浙江省为研究对象,调查分析高质量发展下的浙江现代物流高技能人才供需差距,并系统地提出现代物流高技能人才的开发理念、开发目标、开发主体、开发对象、开发方式、开发内容及开发方法.
20世纪五六十年代,关肃霜扎根云南以后,以她为代表的云南京剧,在运用京剧艺术形式反映云南少数民族现实生活以及塑造少数民族人物形象方面大胆创新,创作演出了一系列云南少数民族题材京剧剧目,形成了云南京剧区别于京派、海派独具滇韵的艺术风格;关肃霜因成功塑造剧中椰枝、黛诺等各具民族特色、性格鲜活的云南少数民族妇女形像,形成了鲜明的表演艺术风格.当时关肃霜和云南京剧也因此独树一帜的艺术风格让全国观众耳目一新,跻身于全国京剧强手之林.目前,在云南京剧整体阵容的构建和关派表演艺术传承方面,仍然存在制约其后续发展的瓶颈问
当前我国烟草市场行业内部数据完整,但商业市场数据的分析,更多的是将信息简单堆叠,进行基本的统计和查询,缺乏深入分析;在应用层面外部数据的支持也缺少成熟应用,外部数据与烟草数据的融合存在关联性不高,融合性较差等问题.本文通过基于网格化的烟草销售热力分析,将多源数据体系与烟草销售数据相结合,实现卷烟消费可视化呈现,为烟草企业进行卷烟或非烟精细化运营提供数据支撑.
在四川羌族聚居地区,长期以来形成了多种形态的羌族戏剧,包括作为祭祀戏剧的释比戏、花灯戏和脱离了祭祀活动的羌戏.厘清羌戏与释比戏的不同概念、属性、范畴,全面了解羌族戏剧多元并存的形态,有利于正确认识羌族戏剧的时代特征与文化价值.
基于新疆地缘优势以及我国与中亚国家的贸易互补性,生鲜农产品双边贸易得到迅速发展,进口增速明显.相较于传统生鲜农产品贸易运输成本过高、效率低下等不足以及受新冠疫情影响进口冷链生鲜安全隐患较大,跨境电商的兴起与快速发展为生鲜农产品贸易方式的转变与创新提供了发展机遇.伴随着我国跨境电商零售进口试点不断扩大所带来的跨境生鲜电商发展红利,为突破上述问题制约,本文提出要构建网购保税进口下跨境生鲜电商F2B2B、F2B2C模式,并从创新海关监管、综合保税区建设、完善冷链基础设施等方面提出保障性对策建议.
云南是一个多民族地区,民族文化资源丰富多元,现代化、城镇化、市场化进程对云南民族传统文化保护传承的冲击不言而喻.乡村振兴战略实施,使得云南民族文化传承、创新、发展迎来新的挑战.如何协调处理好民族文化的保护、传承与创新、发展的关系,是云南民族地区乡村振兴面临的重大课题.农村农业现代化进程中,应当正视民族文化变迁及其传承、创新,重塑新时期云南民族文化传承发展的文化生态,推进民族地区“嵌入式”公共文化服务建设,挖掘民族文化资源发展特色文化产业,推动民族文化的数字化保护与传承,激活民族文化传承创新发展的内生动力,
城乡二元经济差异导致农村大量青壮年人口离开乡村、进入城市从事第二三产业工作,是我国农村“三农”问题的直接原因之一.各级政府都非常重视并逐步部署推动农村产业发展和组织体系再造.为解决“三农”问题,国家启动了新农村建设,首先开展了轰轰烈烈的农村基础设施建设,村村通的基础设施为农村产业升级奠定了坚实基础.在农村基建基本到位的前提下,推进农村一二三产业融合发展,是拓宽农民增收渠道、构建现代农业产业体系的重要举措,是加快转变农业发展方式、振兴乡村经济、文化、社会发展的必然要求.农村产业升级的主要路径方向是三产融合和
[目的/意义]中医领域存在大量的文献,这些文献中含有大量中医诊疗的知识.但这些知识往往存在于非结构化文本中,通过信息抽取技术将其转化成结构化文本,不仅能够提高效率,还可以进一步推进中医智能辅助诊疗的发展.[方法/过程]本文使用了联合事件抽取模型,利用BERT对中医文献进行字向量表示,并在此基础上加入Self-Attention层,最后与CRF模型结合,实现了对中医文献的句子级事件的初步抽取.[结果/结论]通过实验与Pipeline模型进行对比,结果显示,本文使用的模型F1值较Pipeline模型提高了14
[目的/意义]本文探索了文言文的断句规则,并以唐代墓志铭为例进行基于语义的句子边界识别,降低了文言文因缺少标点造成的阅读障碍,减少了人工标注标点的工作量,为中国古文的资料分析整理提供技术支撑.[方法/过程]本文首先使用一种基于汉字偏旁的字表示方法,提取汉字本身隐含的语义信息进行表达.将基于偏旁的字表示输入Transformer-CRF模型,并对墓志铭中的缺失字进行了滑动窗口填补操作,降低缺失字对整体模型的影响.该模型在提高并行计算效率的基础上对输出结果进行关联,提高了准确率.[结果/结论]实验表明,使用基
随着电子商务扶贫、全产业链运营等农村电子商务模式的广泛应用,农村电商发展成为乡村振兴的重要途径之一.目前,农村电子商务发展过程中存在农业产业化程度低、农产品流通不畅、信息不对称、农产品自身特征等问题,严重制约了农村的发展,急需加强农业产业化、农村电商基础设施、农村电商人才等建设,创新农村电商发展模式,以通过农村电商发展进一步推进乡村振兴.