基于条件随机场的网络文本分词研究

被引量 : 0次 | 上传用户:panlihuang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理技术目前已发展为信息处理领域的一个的热点研究问题。其中汉语的处理任务大都需要先进行分词,经过多年的深入研究,汉语自动分词技术在应对传统文本上已经取得了不错的成绩。然而,网络文本的分词水平却不能令人满意,主要是由于网络文本的文体与传统文本有很大的不同,这就对目前的分词研究提出了新的课题。条件随机场(Conditional Random Fields, CRFs)模型不需要严格独立的假设,而且克服了标记偏置问题,因此被广泛的应用到汉语自动分词中,并取得了不错的效果。本文在基于字和词标注结合条件随机场模型的基础上,进行适合网络文本的分词方法研究。主要研究工作分为以下几个方面:(1)介绍隐马尔可夫模型、最大熵马尔可夫模型和条件随机场模型,阐述CRFs模型在汉语标注方面的优越性。(2)总结分析网络文本的特点,在基于字标注和基于词标注相结合的条件随机场模型的基础上,改进标注集,采用适合于网络文本的特征模板,提高系统对网络文本的分侧能力。(3)由于网络文本与传统文本的不同,这就导致网络文本存在大量的未登录词(Out-of-vocabulary, OOV),本文提出通过平均互信息与C-value相结合的方法,过滤出分词模型不能识别的未登录词。(4)对分词结果进行分析,总结错误切分的规律,针对网络文本语料的特点提出一些基于规则的修正方法,进而提高整体分词效果。通过实验证明,本文提出的基于条件随机场模型分词的改进方法,在对网络文本语料测试上,分词的准确率、召回率和F值均取得了一定提高,验证了此方法的可行性。
其他文献
电子艺术的兴起是 2 0世纪艺术领域内最令人惊叹的变革 ,尤为令人震撼的是 6 0年代以来迅速发展的计算机技术和 80年代以来的网络技术挺进人类艺术领域。网络的出现 ,使人类
洪武二十一年(1388)始,明政府在今云南边境以外的缅甸大部以及泰国、老挝北部设置了11个宣慰司、1个宣抚司、1个安抚司、6个长官司、1个土府。这些边区土司的设立将相关地区
<正> (三)日常生活使用的器具仰韶文化时代的人们,主要的日常生活用具是陶制的容器,关中地区、在这一方面所获得的材料是十分丰富的,由于本文的目的只在文化一般性的概述,故
7月24日,中国重庆(石船)重桥第五届葡萄文化节在渝北区石船镇重桥村开幕。即日起,市民可以前往重桥村葡萄基地采摘、品尝和购买新鲜无污染的葡萄。本次石船葡萄节共有133.33
唐宋时期是我国古代商品经济发展的第二个高峰,集中表现为市场的成长和扩大。随着市场的扩大,周边各少数民族被卷入了宋王朝的市场体系,对宋王朝形成强烈的经济依赖关系。经
<正>裁判要旨离婚协议中约定财产归子女所有,是一种以解除双方身份关系为目的的赠与行为。在婚姻关系解除后,该行为产生法律效力,赠与方不得任意变更或撤销。但基于家庭和睦
目的了解某医院放射工作人员职业健康现状,为放射防护管理提供参考依据。方法对150名放射工作人员和63名不接触射线与毒物、无传染性疾病的非放射工作人员,按照原卫生部《放
<正>德化位于福建省中部——素有"闽中屋脊"之称的戴云山的山脉腹地。自古以来,德化就是中国陶瓷的重要生产基地之一,与江西景德镇、湖南醴陵并称为中国的三大古瓷都。德化县
入境旅游市场是中国大力发展的市场,对该市场进行细分可依据多种变量,国外的相关研究证明旅游动机是非常有用的市场细分变量。本研究以桂林、阳朔的入境旅游者为例,以旅游动
鸡父之战只应包括伍鸡"为长壑而洍之"和吴与楚联军"战于鸡父"两个阶段,吴人入郹之役与吴楚"战于鸡父"时空悬隔,不宜视作鸡父之战的一部分。鸡父之战发生在位于淮河北岸凤台县境内的