【摘 要】
:
文本提出了一种基于感知器的中文分词增量训练方法,可在训练好的模型基础上添加目标领域标注数据继续训练,解决了大规模切分数据难于共享,源领域与目标领域数据混合需要重新
论文部分内容阅读
文本提出了一种基于感知器的中文分词增量训练方法,可在训练好的模型基础上添加目标领域标注数据继续训练,解决了大规模切分数据难于共享,源领域与目标领域数据混合需要重新训练等问题。在CTB5.0新闻领域和诛仙小说领域的实验表明,增量训练可以有效解决领域适应问题。达到与传统数据混合相类似的效果。进一步的实验分析表明,增量训练产生的模型远小于混合训练方式产生的模型,增量训练在小规模数据集上能够更快速的完成训练。针对基于感知器的中文分词模型过大问题,本文实现了一种启发式的特征筛选方法,以迭代训练中参数的更新次数为阈值进行特征筛选。这种方式有效的避免了自然语言处理中的长尾效应,能够更好的选择有用特征。在基于感知器的中文分词、词性标注、依存句法分析三个任务上的实验表明,在准确度几乎不变的前提下,均可以使模型成倍的缩小。基于增量训练算法和模型压缩算法,本文实现了一个在线的个性化分词服务系统。用户可以上传目标领域词典和训练语料,系统在后台自动完成增量训练算法,为用户生成目标领域增量模型,提供个性化分词服务。本文提出的增量训练方式保证了多个增量模型之间互不影响,同时有效控制了训练时间和模型大小。
其他文献
Web使用挖掘是Web数据挖掘研究领域的重要应用研究方向之一。其旨在通过对Web日志进行有效的数据挖掘,发掘隐藏在日志数据背后的规律和用户访问模式,从而改进Web站点设计,向
无线传感器网络是一种用于监测指定区域环境信息的自组织网络,它通过在目标区域内抛撒大量的嵌有传感器的节点进行组网。由于传感器节点电量容量有限,因此随着网络的长时间不
决策支持系统(Decision Support System,DSS)是一种帮助中高层管理人员进行决策的计算机系统,这种系统综合运用了信息论、人工智能、信息经济学、管理科学、行为科学等学科的
随着计算机应用领域的扩大,软件规模及复杂性不断提高,提高软件生产率是当前软件产业的当务之急。为解决这个问题,软件复用是有效的办法。领域工程为软件复用提供了有力的技术支
三维地形可视化在地理信息系统、实时仿真及3D游戏等领域都占有非常重要的地位。随着遥感技术、卫星技术的发展,三维地形场景的几何数据和纹理数据量日益庞大。因此,为了实现大
在现代信息社会中,每个行业都在不间断的产生海量的新数据。这些数据支撑行业的发展,也是科技创新的一个重要来源。大数据领域的基石就是存储、管理和分析数据的数据中心。无
语言模型是描述自然语言内在规律的数学模型,它广泛地应用于机器翻译、语音识别和文本校对等领域。近几年,基于语料库的统计语言模型的构造技术成为新的研究热点,统计语言模
数字家庭与数字电视产业发展蓬勃,未来将形成大规模应用,成为国家经济增长支柱产业之一。中山大学承担了国家科技支撑计划项目课题及相关产品开发,共有三个子课题与视频通讯平台
模糊性是事物客观存在的一种属性。随着模糊集理论的发展,要求排序的领域也越来越广泛,专门讨论排序的文章也越来越多[43]。近些年来人们已提出了近40种有关模糊数的排序方法