基于统计与规则的汉语自动分词系统的研究

来源 :北方交通大学 北京交通大学 | 被引量 : 0次 | 上传用户:kcj321
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该论文完成了基于统计与规则的汉语自动分词系统的研究.在自然语言处理中,汉语自动分词一直是汉语语言的计算机处理的瓶颈,该文对于词切分中的歧义问题采取了结合统计与规则两种方式的优点.首先应用三种自动分词的方法:正向最大匹配法、逆向最大匹配法和最少分词方法对语料进行预切分,经过对切分结果的比较找出不同之处,即存在着交集型歧义字段的地方,应用统计得出的词频选择得出切分结果.然后对语料进行第二次扫描,对于可能产生组合型歧义字段的词根据规则库激发相应的规则,根据语义语境进行切分的选择.再对语料进行第三次扫描,对专有名词,如人名,地名,机构名称等进行后处理,至此,对于语料的自动切分结束.衡量一种分词方法好坏的标准主要有两个:速度和精度.为提高分词速度、切分精度、提高系统的可维护性,该系统采用模块化设计,包括预切分、查询歧义、综合排歧、专有名词处理、词典维护、用户界面等模块.其中分词词典设计成词首字索引式并可进行新词的添加和统计.在预切分阶段,保留所有切分结果以确保分词精度.通过用户界面,可以方便地进行该文与句子的切分.实验结果表明,这种分词方法在理论和实践上都是切实可行的.
其他文献
随着城市经济发展和城市规模扩张,城市宏观背景下客流高密度集散所引发的城市公共安全问题,受到社会广泛关注。特别是在城市热点区域,由于人流量巨大,在没有有效预防和管理的情况
学位
视觉系统的研究是机器人领域一个重要的研究领域。同人类一样,视觉系统也是机器人获取客观世界信息的最主要来源之一,帮助机器人进行识别、场景重建、导航、计算等任务。本文以
该文以HFC网络中的核心功能层--MAC层为研究对象,从理论分析和计算机仿真的角度对HFC系统的MAC协议和上行传输技术进行了深入研究.该文的第一章是绪论,简单介绍了宽带接入技
随着大数据时代的到来以及各种高性能计算硬件的出现,基于视觉数据的应用在当今社会的发展过程中发挥着越来越重要的作用,在工业生产、人工智能、机器人导航等众多领域中视觉数
在视频监控应用众多的今天,智能视频监控正以其独立性、智能性、优越性走进我们的视野,受到越来越多的专家学者的关注和重视。智能视频监控在无需人工干涉的前提下,利用模式识别
ATM网中,流量控制与路由选择,传统做法是将两者孤立起来,分别单独加以考虑,且流量控制是面向用户型的.该论文引入了最大流效这个概念,提出了面向节点的流量控制策略,将ATM网
瞬变电磁法是在地球物理领域使用广泛的一种时间域地质结构探测方法,根据观测到的二次场随时间的衰减特性,分析地质体的地电信息。瞬变电磁法可实现同点探测,二次场信号强度弱,易
为了监测灭火后从降温到熄灭、或者从积温到复燃的全过程,设计并完成了监测煤层自燃的无线传感器网络(Wireless Sensor Network,WSN)。由于现有节点测温范围有限,为此通过将作为主
随着科学技术的不断发展,图像匹配在人类的生产生活中扮演的角色越来越重要。图像匹配即是通过对影像内容、结构、特征、纹理、关系及灰度等的对应关系、一致性和相似性的分析