基于感知器算法的中文分词增量系统设计与实现

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户：yanhui516

【摘要】

：

文本提出了一种基于感知器的中文分词增量训练方法,可在训练好的模型基础上添加目标领域标注数据继续训练,解决了大规模切分数据难于共享,源领域与目标领域数据混合需要重新

【作者】

：

韩冰

【机构】

：

哈尔滨工业大学

【出处】

：

哈尔滨工业大学

【发表日期】

：

2015年期

【关键词】

：

中文分词感知器增量训练领域适应模型压缩个性化分词

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

文本提出了一种基于感知器的中文分词增量训练方法,可在训练好的模型基础上添加目标领域标注数据继续训练,解决了大规模切分数据难于共享,源领域与目标领域数据混合需要重新训练等问题。在CTB5.0新闻领域和诛仙小说领域的实验表明,增量训练可以有效解决领域适应问题。达到与传统数据混合相类似的效果。进一步的实验分析表明,增量训练产生的模型远小于混合训练方式产生的模型,增量训练在小规模数据集上能够更快速的完成训练。针对基于感知器的中文分词模型过大问题,本文实现了一种启发式的特征筛选方法,以迭代训练中参数的更新次数为阈值进行特征筛选。这种方式有效的避免了自然语言处理中的长尾效应,能够更好的选择有用特征。在基于感知器的中文分词、词性标注、依存句法分析三个任务上的实验表明,在准确度几乎不变的前提下,均可以使模型成倍的缩小。基于增量训练算法和模型压缩算法,本文实现了一个在线的个性化分词服务系统。用户可以上传目标领域词典和训练语料,系统在后台自动完成增量训练算法,为用户生成目标领域增量模型,提供个性化分词服务。本文提出的增量训练方式保证了多个增量模型之间互不影响,同时有效控制了训练时间和模型大小。

其他文献

基于社交网络的社团结构挖掘算法研究

学位

Web使用挖掘技术的研究

Web使用挖掘是Web数据挖掘研究领域的重要应用研究方向之一。其旨在通过对Web日志进行有效的数据挖掘,发掘隐藏在日志数据背后的规律和用户访问模式,从而改进Web站点设计,向

学位

Web使用挖掘Web数据预处理Web聚类频繁访问路径

无线传感器网络覆盖面积求解方法研究

无线传感器网络是一种用于监测指定区域环境信息的自组织网络,它通过在目标区域内抛撒大量的嵌有传感器的节点进行组网。由于传感器节点电量容量有限,因此随着网络的长时间不

学位

无线传感器网络覆盖面积蒙特卡洛方法几何方法

基于OLAM的进销存决策支持系统的设计与实现

决策支持系统(Decision Support System,DSS)是一种帮助中高层管理人员进行决策的计算机系统,这种系统综合运用了信息论、人工智能、信息经济学、管理科学、行为科学等学科的

学位

数据仓库(DM)联机分析挖掘(OLAM)决策支持系统(DSS)进销存

基于面向对象的领域分析与设计方法研究

随着计算机应用领域的扩大，软件规模及复杂性不断提高，提高软件生产率是当前软件产业的当务之急。为解决这个问题，软件复用是有效的办法。领域工程为软件复用提供了有力的技术支

学位

软件复用领域工程特征软件构件面向对象

大规模三维场景管理与地形漫游技术研究与实现

三维地形可视化在地理信息系统、实时仿真及3D游戏等领域都占有非常重要的地位。随着遥感技术、卫星技术的发展，三维地形场景的几何数据和纹理数据量日益庞大。因此，为了实现大

学位

三维地形计算机绘图三维场景管理漫游技术计算机应用

机群下基于Greenplum数据库查询能耗估算及提高连接能效策略

在现代信息社会中,每个行业都在不间断的产生海量的新数据。这些数据支撑行业的发展,也是科技创新的一个重要来源。大数据领域的基石就是存储、管理和分析数据的数据中心。无

学位

机群数据库能耗估算能效

层次化蒙古语语言模型的构建研究

语言模型是描述自然语言内在规律的数学模型,它广泛地应用于机器翻译、语音识别和文本校对等领域。近几年,基于语料库的统计语言模型的构造技术成为新的研究热点,统计语言模

学位

蒙古语统计语言模型数据平滑词干词缀

基于数字家庭的数字终端视频通讯平台的研究与应用

数字家庭与数字电视产业发展蓬勃，未来将形成大规模应用，成为国家经济增长支柱产业之一。中山大学承担了国家科技支撑计划项目课题及相关产品开发，共有三个子课题与视频通讯平台

学位

数字家庭数字电视视频终端通讯平台

模糊数的排序及应用

模糊性是事物客观存在的一种属性。随着模糊集理论的发展,要求排序的领域也越来越广泛,专门讨论排序的文章也越来越多[43]。近些年来人们已提出了近40种有关模糊数的排序方法

学位

区间数模糊数排序博弈论应用

基于感知器算法的中文分词增量系统设计与实现

其他学术论文