基于条件随机场的专业领域中文分词的研究与系统实现

来源 :海南大学 | 被引量 : 0次 | 上传用户:yy1986527123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息时代的到来和计算机技术的不断发展,自然语言处理应用在人们生活中的方方面面。如何高效地处理语言信息,是自然语言处理技术研究的关键所在。而中文分词作为支撑中文环境下自然语言处理的基础技术获得了大量关注。目前中文分词以通用分词为主,如将专业性强的特殊领域文本进行分词,不能得到较好的分词效果,因此提升专业领域分词效果是急需解决的问题。本文针对上述问题,提出了一种基于条件随机场模型的面向专业领域的分词方法,并开发了应用系统便于用户直接使用分词功能。在预处理阶段,本文根据原始通用语料构建了通用训练语料库,并以妇幼保健领域为例,按照一定的规则构建了妇幼保健领域的专业训练语料;根据专业语料库中含较多时间类词语的特点提出了新的标记策略,同时依据专业语料库中的专业长词特点和缩略近义词较多的特点提出了“长词求整,近义并行”的专业语料标记策略。再设定个性化特征模板,从而使模型能够按照词位标注和特征模板生成特征函数并进行特征抽取。针对特征的抽取和相关信息的存储,我们根据专业语料特点,选取利用相同前缀进行树形结构构建的Trie树进行节点信息的组织,并采用双数组结构对Trie树进行存储,构造时舍弃链式结构的指针采用数组,节省了空间开销,查询时只需要做加法计算,极大减少了时间开销。在权值参数训练阶段,我们选用极大似然估计法作为条件随机场模型参数估计的学习方法,利用L-BFGS算法进行参数估计过程的优化,提高迭代计算效率。在预测阶段,我们为了提高预测速度和减少非紧密关联意群之间带来的标记干扰,提出一种预处理方法,使得标记预测的对象为逗号分隔开来的意群,即提高了效率又增加了准确率同时减少了不必要的计算。本文利用双数组Trie树进行特征索引的查询,将链表查询转为加法计算,缩减了查询时间。本文选取维特比算法作为预测算法,为提升预测的效率缩短预测时间,提出了一种基于规则和阀值的标记限制选择策略改进维特比算法,其中“规则”限定了当下标记前后位置的标记种类以及当下意群首尾位置标记的种类,阀值则限定了此标记能否作为下一标记最大路径计算的选择之一。为了使本方法能更广泛地适应专业语料,本文采取了专业词典逆向最大匹配的方法对标准化分词结果进行后处理,以提升系统对专业词汇的识别度。本文设计了相关实验并验证了改进的标记策略和词典匹配后处理法对分词准确率的正面影响,也验证了改进的维特比算法对分词速度有提高的作用。最后本文设计并实现了专业分词系统,以供用户使用。
其他文献
自从M41S系列介孔材料合成后,介孔材料一直被应用在吸附-分离,催化,生物,色谱分析和药物运输等领域。这很大程度由于它们具有孔径均一、可调;比表面积较大等特点。介孔材料优越的特点与其多样的微观孔结构及宏观形态密切相关。本论文描述了一种合成介孔二氧化硅新型有效的方式,该方式是以混合阴阳离子表面活性剂:十六烷基三甲基溴化铵(CTAB)和十二烷基硫酸钠(SDS)自组装形成的层状液晶(LC)为模板。通过探
2019年8月30日,中国(黑龙江)自由贸易试验区正式揭牌。黑龙江站上沿边开放的新起点,再一次迎来重要发展机遇。作为国家首次在沿边布局的3个自贸试验区之一,黑龙江自贸试验区
自然语言理解(Natural Language Understanding,简称NLU)旨在以人类语言作为输入,得到机器可读的语义表示。它不仅可以让计算机理解人类语言,也有助于深化对语言能力和人类智
轴承圆柱滚子是列车圆柱滚子轴承的重要组成部分,列车在高速重载的工况下长时间运行,其轴承圆柱滚子会产生各种各样的表面缺陷,严重影响列车运行的安全性。近年来,机器视觉技
全面推进素质教育依旧在路上。近几年,教育部对广大教师的综合素质要求更完善、更具体,目的是使得教师可以适应新时代下教育发展的新要求,实现自我健康成长。本课题研究方法
土地经营权可否物权化?是我国理论和实务界研究的热点话题。研究该问题的主要原因有三:一是改革实践的需要。因为,在“两权分离”的农地权利体系下,客观上存在农业生产分散化
新一代高中生已是信息时代原住民,由微信等网络平台带动的碎片化阅读和移动学习已经深入到每个人的生活中,这必然对高中生的学习习惯产生影响。如何因势利导,引导学生发现信
近年来,肥胖症、高血糖、高血脂等一些慢性疾病的发病率呈一定的上升趋势,因此,富含不可消化碳水化合物的膳食因其所含较低的热量已成为这些慢性疾病患者的首选食物。膳食纤维被誉为“第七大营养素”,对人体健康具有重要的作用。但现阶段有研究指出,应该把膳食纤维的概念扩大到能到达盲肠的所有物质成分的总称,并将其定义为不可消化部分(Indigestible fraction,IF),此研究在营养学观点上更有意义。
如今是信息技术蓬勃发展的时代,人们通过互联网可即时浏览所关注的信息。随着科技的飞速发展以及互联网的繁荣,现在每天在互联网上所产生的数据量是以前传统文本时代所远不能
乡村治理作为国家治理的重要组成部分,直接关乎国家治理现代化建设。乡村不发展,中国就不可能真正发展。党的十九大报告提出要建立健全“自治、法治、德治”相结合的乡村治理体系,这是党和国家乡村振兴战略的具体要求和内容,是实现乡村治理有效的重要保障,对“三农”工作的开展有着十分重要的意义。我国乡村社会在实现治理现代化的过程中,面临着诸多问题和制约因素,构建“三治融合”的乡村治理体系面临着许多新问题和新挑战。