【摘 要】
:
随着政务系统信息化程度的不断提高,各级政府机关在日常工作中积累了大量的数据。一方面,这些宝贵的数据资源有助于提高各职能机构的运转效率,促进社会经济发展;另一方面,由于政务数据的专业性和复杂性,使得人工提取数据中蕴含的海量信息变得难以实现。近年来自然语言处理技术的飞速发展,为信息自动化提取和数据高效利用奠定了坚实基础。然而政府机关对数据精度的要求较高,现有的算法未能充分利用该领域的文本特征,不能很好
论文部分内容阅读
随着政务系统信息化程度的不断提高,各级政府机关在日常工作中积累了大量的数据。一方面,这些宝贵的数据资源有助于提高各职能机构的运转效率,促进社会经济发展;另一方面,由于政务数据的专业性和复杂性,使得人工提取数据中蕴含的海量信息变得难以实现。近年来自然语言处理技术的飞速发展,为信息自动化提取和数据高效利用奠定了坚实基础。然而政府机关对数据精度的要求较高,现有的算法未能充分利用该领域的文本特征,不能很好地满足政务知识图谱的构建需求。为了弥补现有方案的不足,本文针对政务命名实体识别和政务实体关系抽取两个子任务分别提出新的算法。在政务命名实体识别任务中,需要检测实体的边界和类别。考虑到构成政务实体的字词具有明显的公文特色,因此本文提出了一种基于预训练分类机制的实体识别方法。通过数据标注工具,将训练集划分为实体部分和非实体部分。分别对其进行分词操作并统计词频,在两个部分中各取一定比例的高频词构建正负类词典,对分类器进行预训练。然后通过该分类器为所有字词生成置信度参数,表征其构成政务实体的可能性。由于输入数据之间存在互相关性,因此本文借助双向长短期记忆网络(Bidirectional Long ShortTerm Memory,Bi LSTM)提取上下文信息。同时考虑到不同特征对输出结果的贡献各不相同,因此引入注意力机制(Attention Mechanism)为不同的特征分配适宜的权重参数。最后使用条件随机场(Conditional Random Field,CRF)对标签之间的约束关系建模。该方法充分利用构成政务实体的字词特征,提高了政务命名实体识别的预测精度。在政务实体关系抽取任务中,需要判定实体对之间的关系类型。考虑到政务文本中存在大量并列结构的实体对,且实体对之间分布集中、关系相同、跨度不同,因此充分利用局部特征成为改善政务实体关系抽取效果的重要方式。然而现有的方法通过卷积操作和池化层提取文本特征时将丢失局部特征的位置信息,因此本文提出特征序列分割卷积神经网络(Feature Sequence Segmentation Convolutional Neural Network,FSSCNN)实现自适应池化,弥补了现有方案的不足。为了提取不同跨度上对预测结果影响较强的局部特征,本文采用显著性特征提取卷积神经网络(Saliency Feature Extraction Convolutional Neural Network,SFECNN),实现局部特征增强。与此同时,本文借助Transformer结构提取长距离依赖关系,将局部特征与全局特征融合后,通过Softmax函数输出关系类别。该方法保留局部特征和全局特征中的位置信息,有助于改善关系抽取任务的预测效果。
其他文献
拓扑优化是结构优化方法的一种,是设计中的重要步骤,其目的是在设计域内为给定量的材料做最佳分布,该工作除了为设计者在概念设计阶段提供参考,还可对现有设计方案做进一步优化。伴随着20世纪以来的自动驾驶以及航空工业的发展,拓扑优化在越来越多的学科有了广泛的应用。拓扑优化的经典方法为SIMP算法,然而该方法的迭代次数多,收敛较慢,且运算复杂。为了解决这些问题,本文受到前人工作的启发,将传统的优化问题看作图
在土工三轴试验的力学性能测试过程中,土样体积变化的测量是非常重要的环节。对于饱和土,土样体积变化的测量技术相对成熟,可利用量筒间接测量流体吸入或排出饱和试样的体积来实现。然而,对于非饱和土,土样内部不可避免地存在空隙、气泡等,传统饱和土体积变化的测量手段已无法准确测量非饱和土的状况。数字图像技术因其测量精度高、不扰动试样,在土样体积变化测量方面具有显著的优势。本论文引入数字图像测量技术开展土样体积
单目深度估计是计算机视觉领域中一项重要而具有挑战性的任务,而且在三维场景重建、无人驾驶、医学图像处理、现代化军事以及智能交通系统中都发挥关键性作用。其目的在于估计出RGB图像中每一像素点的深度信息。基于深度学习的深度估计流程为:首先输入一张二维图像,然后进入卷积神经网络即编码器-解码器结构,最后估计出图像中场景的深度值。在深度估计的过程中,网络模型的精确度往往会受到图像尺度与场景环境的影响。尽管目
使用社交媒体平台是如今大部分人日常生活的一大特色。人们喜欢在互联网上分享自己的感受、趣闻轶事、大事小情,包括自己的身体状况、病情、用药等等。这同时也为自然语言处理工作带来了源源不断的数据资源。健康已经成为全世界最为关注的问题之一,它与我们每一个人都息息相关,并且在生活中扮演越来越重要的角色。将机器学习以及深度学习方法应用于生物医学领域是一种新的发展趋势,并将带来更大的发展。而社交媒体数据是由用户自
为满足我国近年来航空航天事业的发展需要,对大型构件的高效高精加工提出了新的要求,而数字化测量技术是保证加工过程高精、高效、高鲁棒的关键。目前,国内外航空航天业已经对工业生产中的测量技术进行了大量研究,其中视觉测量作为一种非接触式测量方法,具有数据采集快速、高精高效、便于移动、能够三维测量等优点,受到了工业界的充分研究和重视。本文主要研究了基于双目视觉的大型航空航天构件加工过程中局部加工定位点的高精
轻量级区块链继承了传统区块链的优势,对数据的安全性加以保障,同时结合移动边缘计算理念,避免了对计算和存储资源的过度依赖,满足了车联网边缘节点的实际需求。恰当的人工智能算法可根据车辆需求和上报数据的变化,有效地决定和分配不同地区的数据缓存,以避免数据与地域兴趣不匹配,从而间接影响车辆行驶过程中的数据卡顿等问题。本文结合现有的车联网特点和区块链技术,提出了一种轻量级区块链应用于车联网的架构,并引入协同
定制产品设计和生产制造过程中,制造商常邀请用户通过虚拟体验等方式感知产品性能。通过分析用户完成产品体验后发表的用户评价,了解产品设计的不足与缺陷,从而有针对性的完善产品性能,使定制产品更加适应用户需求。情感分析技术是一种基于句法分析和机器学习的文本观点提取与情感判断方法,在文本数据分析处理过程中,它可以基于文本数据近似模拟出文本特征与其情感倾向的关系。与人工分析文本相比,文本情感分析技术能够有效缩
目前,随着信息时代的高速发展和计算机计算能力的不断提高,人机交互的情绪识别是发展最快的研究领域之一。为了提高人机交互的效率,增强计算机识别情绪的能力是十分重要的。当前情绪识别的研究大多集中于人的面部表情、声音、文本等方面,而人体运动的情绪识别任务较少受到关注。然而,日常生活场景较为复杂,可能出现面部表情、语音等失效的情况,这时空间尺度更大的肢体动作情绪识别往往能够发挥更大的作用。现有的情绪识别数据
近年来,国家司法改革不断深化,随着司法机构数字化程度不断提高,法律文本数据信息出现了指数级的急速增长,海量司法文书的高效分析与处理成为亟待解决的问题,相关问题的研究也受到研究者的广泛关注。法律文书的命名实体识别,作为司法人工智能领域的关键性和基础性的工作,在法律问答、刑期预判和司法知识图谱构建等任务中起着重要应用。命名实体识别的研究推动了司法人工智能下游任务的发展,但目前司法命名实体识别的研究还处
雾霾是一种常见的大气现象,是空气中悬浮的微小颗粒物(灰尘、烟、微小水滴等)组成的气溶胶系统。在户外拍摄图像时,雾霾的存在常常会使得拍摄的图像出现对比度降低、整体色彩变淡等现象,导致图像的可视化效果变差,影响到后续的高层计算机视觉任务。因此,去除图像中雾霾的影响是一项很有意义的研究。对于图像去雾问题的研究,主要有基于图像增强、基于物理模型和基于深度学习这三种类型的方法。基于增强的方法属于较早期的研究