基于概念的中文分词模型研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户:laogong90
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息社会的飞速发展,人们对信息的理解的准确性提出了越来越高的要求。如何提高计算机自然语言处理的能力已经成为摆在研究人员面前的一个非常紧迫的课题。计算机在处理中文语言的文本时,要对处理的文本要进行词的切分,正确的分词是计算机对中文文本进行理解的前提和基础。本文提出了通过概念分词对中文文本进行处理的方法,有效地降低了文本向量的维度,处理了同义多义的语言现象,缩短了文本处理的时间。 1.在介绍了中文分词技术发展的历史以及所面临的主要问题和难点;同时介绍了当前中分词技术所用到的一些主要的方法和他们的优缺点。 2.为了构建概念分词所需要的概念知识库,本文论述了概念理论领域内主要的研究现状,分析和比较了Hownet(知网)和HNC(概念层次网络)理论各自的优点和不足。 3.提出了概念空间模型的定义,通过概念知识库的设计和概念语义距离的定义来计算文本向量的维度;同时,作者设计实现了概念分词系统模型,包括系统的结构设计和分词相关的各种算法。 4.对实现的分词模型进行了实验和分析,实验数据说明了概念分词技术在某些指标上要优于传统的分词方法;同时,也指出了这种方法的不足和仍需改进的地方。
其他文献
计算机和Web技术为电子商务提供了一个巨大的信息平台。该平台为商家和顾客提供了便利的手段来发布和获得相关信息,使得电子商务发展迅速。同时,随着其规模的不断扩大,信息的日
网格是一种并行分布式系统,可根据资源可用性、功能、性能、成本及用户的服务质量需求,共享、选择及聚合分布在多个管理域的资源。网格计算要从试验阶段发展到商用阶段仍面临众
随着通信行业的迅猛发展,数字电视已经渗透到现今人们的日常生活中,成为人们生活中必不可少的一项休闲娱乐活动的工具。世界各国也开始纷纷加入数字电视研究的热潮中,字幕作为数
随着计算机网络技术的不断发展,网络通信技术已经开始融入传统的电话业务。网络电话成为Internet上新的服务领域之一,不仅具有成本低廉、网络资源利用率高等诸多优点,还可进
WebGIS 是以互联网为环境,以Web 页面作为GIS 软件的用户界面,把Internet和GIS 技术结合在一起,为各种地理信息应用提供GIS 功能。J2EE(Java 2 PlatformEnterprise Edition)是一
随着Internet的快速发展,网络内容的安全性问题也日益突出。具有高匹配效率的包过滤防火墙,对于网络通信内容的监测、过滤、处理无能为力。应用级代理防火墙虽然能够理解应用层
条码技术是迄今为止最经济、实用的一种自动识别技术。条码的广泛应用各行各业,极大地提高了数据采集和信息处理的速度,提高了工作效率,为管理的科学化和现代化作出了很大贡献。
多中心车辆路径问题( MDVRP )是一个复杂的组合优化问题,其复杂性甚于车辆路径问题( VRP ),该问题在现实生活中普遍存在,与人们的生活息息相关。蚁群算法( ACO )作为一种比较
相变存储器即PCM(Phase Change Memory),是一种非易失新型变阻存储器,通过存储单位处于不同的电阻态来记录零和一的数据信号。具有存储密度高、读写访问延迟低等特点。在擦写次数
文本自动分类,是将非结构化的文本依据其内容指派到一个或多个预先定义的类别中去的一项技术,近10年来受到了人们越来越多的关注。这主要因为大量机器可读的电子文本的出现,迫切