基于局部Viterbi算法的中文分词研究与应用

来源 :武汉邮电科学研究院 | 被引量 : 0次 | 上传用户:awenqqw123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
中文分词是中文信息处理领域的基础课题,也是中文信息处理发展的瓶颈之一,其中对歧义字段的处理是影响分词精度的关键,国内外许多研究人员在这一领域都进行了深入的研究,但就目前现状来看,仍不能满足实际应用的需要。   本文针对分词中的三个方面——词典结构、歧义处理、地名识别——进行了深入的研究。在词典结构方面,通过对词典中各个词语进行统计,最终形成以词首为唯一索引,与之可能成词的字符有序无重复索引的网格数据结构。通过逐级索引的结构,可以大大提高遍历词典的速度;在歧义处理方面,对N-Best最优路径和Viterbi算法的模型进行深入研究并结合本文的具体应用作出相应改进,主要体现在改进了Viterbi算法对全路径的逐一计算,而是先通过前向最大匹配与逆向最大匹配对待分词文本进行预处理并获得粗分结果集,其次,利用Viterbi算法对此粗分结果集进行词频信息统计,降低了算法复杂度并提高了算法效率,同时,根据Viterbi计算出的最优路径达到了消除歧义的目的;在地名识别方面,由于地名识别依据多个地名词典进行匹配,因此本文所设计的中文分词系统,在对待分词文本进行粗分处理时,标记了可能为地名的词语,而不是对所有词语均启动地名识别模块,从而在一定程度上使得地名处理与分词速率达到一个比较理想的均衡状态;   在系统测试阶段,本文针对普通文本、地名文本、综合文本分别进行了分词正确率测试与分词速率测试,其中普通文本的分词平均正确率与分词平均速率分别为95.6%和1234.6k/s,地名文本的分词平均正确率与分词平均速率分别为92.0%和711.8k/s,综合文本的分词平均正确率与分词平均速率分别为92.8%和935.9k/s。   通过以上测试结果,可以看出本文对词典结构的设计、消除歧义与地名识别的研究、以及Viterbi算法应用于局部路径的设计符合预定的分词目标,达到了比较理想的分词效果。
其他文献
随着科技的进步,无线传感网络(wireless sensor network,WSN)作为一种新兴技术,集成了传感器技术、现代无线通信技术、分布式信息处理等技术,广泛应用于医疗卫生、军事、智能
基于MSTP的电信级以太网目前在电信运营商中得到了广泛的应用。电信级以太网定位于城域网中解决IP、以太网和TDM等业务的传输问题。电信级以太网技术主要以网络能够支持的以
超分辨率图像重构的目的在于复原截止频率之外的信息,以使图像获得更多的细节和信息。在传统的图像复原问题中,只有一帧输入图像。超分辨率图像重构的概念可以简单的理解为利
随着无线通信技术、计算机网络技术、信号处理技术、集成电路技术的飞速发展和日益成熟,无线传感网络技术的发展也得到快速的提升,并被广泛应用到军事领域和民用领域中。其中,目
Ad Hoc网络是一种独具特色的网络,作为一种新型的无线、多跳、无中心分布式控制网络,它无需网络基础设施,具有很强的自组织性、鲁棒性、抗毁性和容易构建的特点,其关键技术一