政策术语抽取系统设计与实现

来源 :广西大学 | 被引量 : 0次 | 上传用户:wangxiang62
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着“互联网+政务服务”建设的不断深入,“全国一体化”政务服务平台基本建设完成并投入运行,而政策文本分析技术在政策解读、政企协同和企业决策等政务服务方面,具有十分关键的现实意义。随着政策文本数据的增长,政策文本分析面临着诸多问题:一方面由于缺乏政策术语词库,政策文本的细粒度索引无法建立,政务服务平台无法进行高效的政策文本检索;另一方面政策文本中政策术语新词的大量出现,导致分词准确率低下,影响了政策文本分析效果。由于政策术语具有时效性、低频度、稀疏性和复合长词的特点,传统术语抽取方法难以满足实际应用需求。针对上述问题,本文研究了一种零样本语义增强的多策略政策术语抽取技术,包括:(1)研究如何融合多维特征解决复合长词术语的抽取,提出了一种基于多策略的复合长词术语抽取方法。该方法通过N-Gram统计语言模型获得候选术语,采用融合词频、自由度、凝固度和C-value特征各自优势的综合指标FPDC来衡量术语,并结合语言学规则过滤候选术语,得到政策术语新词;(2)研究如何借助外部知识解决低频术语的召回,提出了一种基于语义增强的低频术语抽取方法。该方法从频繁项挖掘和语义相似度两个维度对政策文本特征进行建模,融合多种频繁模式挖掘策略与现有政策术语词库选取特征种子词,引入预训练语言模型来增强政策领域术语语义特征匹配,召回低频且稀疏的政策术语。通过在政策文本数据集下实验,验证了该技术在抽取政策文本中复合长词的政策术语以及召回低频术语的有效性。基于上述成果,设计并实现了一个语义增强的多策略政策术语抽取系统,提供交互式页面对术语词库进行循环更新,从无词库冷启动到有词库热启动半自动化的政策术语抽取。此外,该系统还提供政策术语词库管理、政策术语词库统计可视化等功能,为其他应用系统提供用以集成调用的API接口。
其他文献
2022年版课标明确指出以学习任务群的形式组织与呈现课程内容,推动课堂教学变革。教师要在领会学习任务群的旨归下,树立单元整体意识,精准定位习作单元内各板块的功能,进行整体设计单元教学,体现“教—学—评”的一致性,促进学习深度发生,助力学生语文核心素养的发展。
期刊
三维视觉成像在逆向工程、医学成像、虚拟/增强现实、元宇宙等方面有着重要的应用。单帧条纹投影轮廓术作为一种非接触式的主动三维视觉成像测量方法,具有便捷性强、精度高、可成像动态物体的优点。而相位提取是单帧条纹投影轮廓术中最重要的步骤,其主要包括包裹相位提取、相位展开以及非线性载波相位去除三个主要环节。在单帧条纹图像相位提取的各个环节中,现有的方法还面临着如下挑战:(1)非线性载波相位去除方法的精度不高
学位
随着科技的发展,软件对终端设备计算能力的需求与日俱增。然而,终端设备的性能与能耗成正相关,如何在终端设备能量约束的条件下满足软件性能需求成为当前的研究热点之一。边缘计算技术是解决终端设备能耗与性能问题的主要技术之一,该技术将终端设备的计算任务卸载至边缘网络进行计算,这不仅可以降低软件对终端设备的性能需求,还可以减少终端设备的能量消耗,达到能耗与性能平衡的目的。目前,许多边缘计算卸载方案只针对单一场
学位
环状RNA(circRNA)是一种没有3和5端腺苷酸尾的非编码RNA。由于其为环形结构,与线性RNA相比,它稳定性更高。近年来高通量序列检测技术发展迅速,越来越多的研究表明环状RNA参与到了多种生命过程中,并与人体的多种疾病(阿兹海默症、心脏病、糖尿病、癌症)有着密切的关系。预测环状RNA与疾病的关系有助于了解疾病的发病机理,也有利于诊断和治疗疾病。传统检测环状RNA与疾病的潜在关系方法一般是基于
学位
磁场作为一个基础物理量与人类生活息息相关,它既有强度上的大小,也有方向上的不同。目前,用于探测磁场的磁场传感器已经被广泛地运用在在工业、军事和生物医学等方面。传统的磁场传感器多是电学式传感器,主要存在占用空间大、成本高、抗电磁干扰弱等弊端,而光纤磁场传感器已经成为了下一代全光传感器网的关键部分,具备集成度高、敏感度高、抗电磁干扰能力强等优势,并且便于集成复用在现有全光传感网络当中,以达到更高效、高
学位
近年来,视频流流量持续增长,已经占据互联网总流量的主要部分。为了应对网络带宽的波动性,提供流畅的视频播放服务,自适应视频流技术被提出。目前,自适应比特率(Adaptive Bitrate,ABR)算法被广泛应用于基于HTTP的动态自适应流(Dynamic Adaptive Streaming over HTTP,DASH),以提高用户体验质量(Quality of Experience,Qo E)
学位
信用卡欺诈交易的检测一直以来是学术研究界的研究热点,其研究目的是根据用户的交易行为,判断用户是否存在欺诈情况,并及时给予反馈,以保障信用卡发卡行与持卡人的财产安全。但是由于信用卡交易数据样本的高度不平衡性,欺诈检测系统有时难以及时识别,并制止欺诈行为。随着机器学习的发展,有很多学者利用机器学习技术,对欺诈检测领域进行研究,先后提出了许多提高信用卡欺诈检测系统准确性的方法,但在信用卡欺诈检测中始终面
学位
<正>企业的可持续发展、行业的可持续发展、乃至全球经济的可持续发展,不断深化和扩展了对项目、对企业以及对行业的评估体系,环境、社会和公司治理(ESG)形成的完整的评估体系业已成为企业可持续发展的关键框架。企业在ESG体系下开展能力建设、在国际合作中不断深化提升,进而铸就自身可持续性的软实力,在国际基础设施项目投融资建设和运营中实现可持续性高质量的发展,依托ESG体系在全球合作中的价值以构建可持续发
期刊
随着第五代通信技术(5G)的发展,自动驾驶、增强现实、虚拟现实等新应用对于搭载设备的性能提出了极高的要求。用户设备很难仅仅通过拓展硬件设施的方式满足这些应用的计算需求。为此,业界提出移动边缘计算(Mobile Edge Computing,MEC)作为解决上述问题的方案。在MEC中,用户设备可以将任务卸载到位于移动网络边缘的服务器上执行,以达到降低任务处理时延和用户设备能耗的目的。然而,边缘服务器
学位
在小学数学教学中,教师要应用“问题”“表征”“转换”启发学生,让学生的表达“有思路”“有道理”“有根据”,引导学生规范地、清晰地、简约地表达等。优化数学语言教学,能让学生的数学表达能力得到有效提高,促进学生认知力的提高,带动学生数学学习方式的变革。
期刊