基于序列标注的中文语义组块分析系统设计与实现

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:ljkstar007
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文语义分析是使计算机理解汉语句子并实现人机中文对话的非常重要的一步,它能将中文句子转化为机器可以理解的一种表达方式。依据中文语法特点设计中文语义组块序列标注方式,并使用深度学习方法设计与实现中文语义组块分析系统,完成对中文句子语义成分的划分。为了得到准确率较高的中文语义组块分析器,将输入数据进行了清洗,过滤其中的非句子成分,并利用标点符号切分出单句;训练了中文分词和词性标注模型,使用训练好的模型对清洗后的数据进行分词和词性的预测;使用word2vec的方式预训练出中文词向量与随机初始化的词性向量进行拼接作为神经网络模型的输入;设计并实现了多个中文语义组块识别模型,首先根据CRF算法进行了实现,设计了用来提取分词和词性特征的特征模板,并根据句中出现的短语增加短语内词的特征,结合词特征和状态转移矩阵对中文语义组块进行识别;然后实现了使用BiLSTM嵌入CRF中状态转移矩阵的模型,接着在该模型基础上设计增加了网络层数,实现了双层BiLSTM+CRF模型,最后在双层BiLSTM+CRF模型基础上引入Attention机制,实现了新的双层BiLSTM+Attention+CRF模型。通过对实现的四种模型进行比较,最终选择使用双层BiLSTM+Attention+CRF模型对中文语义组块进行识别。完成中文语义组块分析系统的设计与实现之后,使用改进的模型在金融领域语料中对其他序列标注任务进行了测试和比较,该模型的效果均优于目前百度和哈工大的自然语言处理工具,在中文语义组块识别任务中,该模型F1值达到了91.22%。最终对系统进行了全面的功能测试和性能测试,通过各项测试结果发现系统各个模块运行正常且与预期保持一致。
其他文献
产业集群保持持续竞争优势、实现升级和发展归根到底取决于产业集群的创新能力。但随着近年来全球化竞争的不断加剧和技术进步的加速,越来越多的产业集群在发展中遇到了新的问题和挑战,在发展过程中遭遇了很多创新瓶颈,不能有效地保持产业集群的持续竞争优势。因此,如何增强产业集群的创新能力,保持产业集群长期的竞争优势,实现产业集群的持续发展,就成为目前研究的热点问题。创新能力的传递机制是本文的研究目标,只有创新能
高次谐波是原子(分子)与强激光场相互作用释放的宽频光辐射,它不仅能获得阿秒量级的极紫外光源和X射线源,还能合成超短阿秒,通过超短阿秒脉冲可以探测和操控原子(分子)内部结
在旋转机械中滚动轴承是至关重要的基础零部件,且在装备制造、能源石化、国防安全、航空航天等国民重要经济领域中有着广泛的应用。而当常处于高负载、变工况和持续运行等极
随着深度学习的在图像领域和语音处理领域的广泛应用,卷积神经网络也已经成为大多数自然语言处理任务的主流方法。文本分类作为自然语言处理一个非常有代表性的研究领域,是很
我国《公司法》第151条详细地规定了股东代表诉讼制度,该制度设置的目的在于“使法院可以保护公司和少数股东免受居于管理地位的董事、经理等内部人员或者任何其他第三人的欺
产业集群升级需要借助整体优势的提升。集群竞争优势的增强不仅与每个企业的创新发展息息相关,处于创新网络中的企业,离不开与其他节点相联结的网络整体功能的升级。集群创新网络将各节点企业联结起来,对创新活动起到风险分担、技术互补的作用,对集群企业创新战略实施,发挥集群资源优势具有重要影响。面对我国产业集群迫切需要改变价值链低端环节的诉求,积极探索创新驱动的集群升级发展方式具有重要意义,为此,我们积极探索创
近年来,我国城市居民的生活水平不断提升,人均汽车拥有量不断上升,居民对城市基础设施要求越来越高,停车设施落后、数量不足引发了停车难、行车堵等一系列问题,严重影响了城
机器人学是一门综合性学科,随着机器人及图像视觉的快速发展,提高机器人的自主移动与控制能力显得尤为重要。以Kinect为代表的RGB-D类相机能够同时获得场景中的RGB图像与深度
区块链技术因其特有的去中心化、难以篡改、无信任多方协作、匿名隐私等特点,对一些传统业务模式具有革命性的改变,得到了工业界和学术界的广泛关注。共识算法是区块链技术的
能量捕获一直以来都是解决无线网络能量问题的有效技术。射频能量捕获的发展极大地延长了网络的使用寿命,拓展了无线传感器网络的应用范围。而当节点之间距离相隔较远时,无线