特定领域汉语分词标准制定方法的研究

来源 :北京交通大学 | 被引量 : 2次 | 上传用户：tegger

【摘要】

：

汉语分词作为中文自然语言处理研究的基础性工作,在中文信息处理中扮演着重要的角色。随着中文信息处理的发展,特定领域汉语分词的需求增大。但是由于特定领域分词标注语料匮

【作者】

：

白露

【机构】

：

北京交通大学

【出处】

：

北京交通大学

【发表日期】

：

2017年01期

【关键词】

：

汉语分词分词标准边界熵决策树 CRFs

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

汉语分词作为中文自然语言处理研究的基础性工作,在中文信息处理中扮演着重要的角色。随着中文信息处理的发展,特定领域汉语分词的需求增大。但是由于特定领域分词标注语料匮乏,使得现有的基于通用领域的分词系统对特定领域文本进行分词时会造成分词精度下降,原因在于:(1)特定领域专业术语切分存在多样性,缺少分词标准来规范,从而影响分词精度;(2)特定领域与通用领域词汇结合时所产生的"跨界"问题,也就是交集型歧义切分问题。现有分词系统并不能对此问题提供良好的解决方案,从而造成分词精度下降。针对以上两个问题,本文研究特定领域分词标准制定的方法,规范特定领域专业术语切分方式,标注特定领域语料,提高特定领域分词精度;提出融合少量标注数据的统计方法来解决交集性歧义切分问题,从而提高分词精度。本文主要包括以下两方面工作:(1)针对特定领域分词标准缺乏的问题,本文提出基于统计特征的决策树分类方法,利用已有的新闻领域分词标准中的词语统计特征,包括AV值、边界熵和字符串频度值特征,并结合特定领域词语特征混合训练分类模型,用于专业术语判定,制定特定领域汉语分词标准。在制定的分词标准指导下,本文对科技领域语料自动标注,获得大规模标注语料。实验结果显示,边界熵、AV值和字符串频度值统计特征在决策树分类模型中获得最好结果,在此分词标注指导下构建的自动标注系统获得分词精度的提升。(2)特定领域文本含有大量领域特有专业术语,使得术语与通用词语相邻时位于各自边界的汉字容易成词,为分词边界切分引入更多不确定性,导致分词精度下降,被称为交集型歧义切分问题。针对交集型歧义切分问题,本文提出基于主动学习的局部数据标注方法,实现模型的领域自适应。其基本思想是利用原模型对特定领域文本分词,选取通用词语标注错误的语句,只对句子中通用词语错误的局部字串进行标注,然后将标注数据并入训练语料重新训练模型,实现原模型向特定领域的适应。本文采用基于CRFs的分词模型。实验结果表明,本文所提方法通过少量的人工标注数据有效的解决了交集型歧义切分问题。综上所述,本文围绕特定领域分词精度下降的问题,对特定领域分词标准制定方法进行了深入研究,提出了基于统计特征的决策树分类模型,填补了特定领域分词标准的空缺,并针对特定领域交集型歧义切分问题,提出了基于主动学习的局部标注方法。实验结果验证了这些方法的有效性。

其他文献

压缩感知图像自适应恢复算法的研究

压缩感知理论作为全新的采样理论，开辟了信息采样的新思路，有着广泛的应用前景和研究价值。压缩感知理论主要基于信号的稀疏化和可压缩性，其实现过程主要分为三个阶段：信号的稀疏

学位

压缩感知信号稀疏化匹配追踪自适应重构

垂直搜索引擎中主题爬行技术的研究

随着互联网技术的飞速发展，传统的通用搜索引擎逐渐暴露出了覆盖率低、结果不准确等弊端。为了满足用户精确搜索的需求，垂直搜索引擎应运而生。它利用主题爬行技术来搜集Web中

学位

主题爬行维基百科主题描述网页分块自适应方法

基于等高线的Delaunay缝合算法研究与实现

近年来，随着地理信息系统(GIS)的飞速发展，数字高程模型(DEM)作为三维空间信息系统的一个重要的组成部分，在工程建设、资源与环境、军事等领域有着非常广泛的应用。DEM是地形分

学位

地理信息系统(GIS)数字高程模型(DEM)DelaunayOpenGLLOP

船舶建造分段制造计划优化方法及工具

国际船舶制造业市场竞争十分激烈，各国的船舶企业为了获得更高的经济效益，不断研究和探索新的船舶建造工艺和高效的管理理念，其中如CIMS技术的普遍应用，促进了船舶企业信息化管理

学位

分段制造计划船舶建造资源建模项目调度

多主体环境下任务描述及分解机制的研究

随着计算机技术的飞速发展，所要处理的信息量也不断剧增。国际互联网的不断普及，解决网络异构性成为了不得不面对的问题，由于这些原因推动着基于多主体环境下任务管理的迅速发展

学位

多主体环境任务描述任务分解任务图任务树

基于知识库的安全需求获取方法

随着计算机软件应用的不断发展,软件安全问题日益成为各行业用户关注的焦点。在软件开发的需求阶段考虑并解决软件的安全问题对降低软件开发成本、提高软件质量有着重要的理

学位

安全需求资产威胁安全功能组件CC标准

基于MMTD的人脸识别方法研究

人脸识别是图像处理、模式识别和计算机视觉领域中极富挑战性的研究课题之一。现有的人脸识别系统在较好的采样条件下能够取得较好的识别精度。但是在条件不理想(图像分辨率

学位

人脸识别中介真值程度度量图像放大MMTD判定准则主成分分析

磁阀式可控电抗器控制系统的设计与实现

稳定电网电压和无功补偿是近几年电力系统研究的热点问题之一，如何将稳定电网电压与无功补偿相结合是其中重要的技术研发课题。当前，同时进行稳定电网电压与无功补偿的理论发展比较成熟，但实际应用尚需实践。本论文研究同时稳定电网电压和进行无功补偿的综合控制技术，设计和实现了一套既能控制磁阀式可控电抗器又能控制并联电容器组的磁阀式可控电抗器控制系统。该控制系统控制磁阀式可控电抗器产生感性无功功率，控制并联电容器

学位

无功补偿磁阀式可控电抗器可控硅导通角电容器投切DSP

基于大学领域本体的语义检索技术研究

缺点和不足，即基于关键字的信息检索系统无法保证用户查询的高质量反馈的问题，本文通过对语义检索和本体技术进行研究，将它们引入到信息检索领域中，从而构建基于本体的语义检索系

学位

本体信息检索语义检索

基于行为监控的软件自调节技术研究

在动态、开放和个性化的网络平台上，软件容易受到环境变化和用户需求改变的影响。系统管理人员为维持软件的正常运行，对软件系统进行的管理维护负担日趋繁重，如何使软件系统具有

学位

反射系统软件行为行为监控软件自调节

特定领域汉语分词标准制定方法的研究

其他学术论文