基于统计和语义信息的中文分词算法研究

来源 :青岛科技大学 | 被引量 : 0次 | 上传用户:liongliong474
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中文分词技术研究的不断深入,如何实现分词算法中语义信息的处理成为当今研究热点之一。本文结合特定领域的领域性以及语义网本体的结构特点,对基于词典的双向最大匹配算法进行改进,提出基于统计和语义信息的中文分词算法,并开发了中文分词系统对该算法进行验证,最后通过与NLPIR汉语分词系统的分词结果比较,实验表明在特定领域本文提出的算法比传统分词方法有效。针对以上内容,本文主要做了以下五方面工作:1.根据OWL标准构建一个平面几何领域本体。借助维基百科和语义相关度知识了解平面几何领域概念知识以及层次结构,从中抽取30个领域术语,运用领域本体中的四种基本关系完成对术语之间关系的半自动标注和校对,构建起语义相关的数据库,并完成对该领域本体的编辑管理。2.提出一种基于统计规则的歧义消解算法。考虑到歧义字段对切分精度的重大影响,在分析现有歧义处理方法的基础上,总结规律发现问题,提出五条统计规则,并根据统计规则设计实现一种针对交集型歧义的处理算法。3.提出一种基于语义信息的中文分词算法。该算法是对传统的基于词典的双向最大匹配算法进行改进,通过构建平面几何领域本体作为语义词典来代替传统的中文分词词典,将待切分文本经过预处理后与本体中的词条进行匹配,通过领域本体中术语之间的关联关系来实现机械分词对语义信息的处理,减少歧义字段,最终得到更准确的切分结果。4.设计并实现基于统计和语义信息的中文分词系统。该系统对本文提出的分词算法进行了实现,设计系统整体框架并具体阐述框架中每个模块的功能,最后结合提出的算法实现了预处理、语义分词以及歧义处理分词三个功能。5.对本文提出的分词算法进行验证。以平面几何题库作为实验语料,从平面几何5个大类中各随机抽取10份测试语料在开发的中文分词系统中进行测试,测试项目包括切分精度、歧义处理、未登录词识别以及系统响应时间等,将测试结果与NLPIR汉语分词系统的分词结果比较,表明在特定领域本文提出的算法比传统分词方法有效。
其他文献
网络控制系统是将传感器、控制器和执行器通过实时网络构成的闭环反馈控制系统,为了保证整个系统的安全性和可靠性,常用冗余设计的思想来构建网络控制系统,网络通信冗余是其
乳腺癌是妇女常见恶性肿瘤之一,早期诊断和早期治疗是降低乳腺癌患者死亡率的关键。微钙化是乳腺癌早期的一个重要标志,微钙化点在乳腺X线影像上表现为独立或成簇分布的亮点,
随着数字技术和Internet技术的不断发展,视频数据得到了广泛的应用。例如视频点播、收费电视节目、以及视频会议等,这些应用对于视频数据的安全性都有不同程度的要求。普通的
目前,医学图像处理中的医学图像分割方法是一个热门课题,这个领域的研究和开发工作已经有了很多年的发展历史,众多的图像分割算法已经被相当多的学者提出。但是纵观各种的图
脂肪肝是由肝脏内脂肪堆积过多而导致的病变,若不及时控制,则可能引发肝硬化、肝癌甚至导致死亡。临床上常采用B超检查方法,医生肉眼进行脂肪肝的诊断,这种经验的、主观的诊
随着信息技术和计算机网络的发展,人们的日常生活和计算机网络的关系越来越密切。然而,随着信息技术知识的普及,网络也随之变的不安全,攻击工具与手法日趋复杂多样。防火墙这
我国是农业大国,蔬菜、水果产业分别位居种植业中的第二、三大产业。利用机器视觉技术,自动化对蔬菜和水果的质量进行评价,可以提高果蔬分级的客观性,减轻从业人员的劳动强度
神经网络作为一门新兴的信息处理科学,是对人脑若干基本特性的抽象和模拟。它是以人脑工作模式为基础,研究自适应及非程序的信息处理方法。这种工作机制的特点表现为通过网络
随着Web服务技术的迅速发展,网络上基于Web服务的应用也越来越多,但是现有的服务大都是单个且功能简单的服务,难以满足复杂业务流程集成需要,组合现有的Web服务能够克服以上
随着多媒体技术以及Internet网络的发展,图像数据迅速膨胀。如何充分利用已有数据使之避免沉没在信息的沼泽里成为急需考虑的问题,这就要准确、快速地查找所需数据。图像检索