基于概念的中文分词模型研究

来源 :南京邮电大学 | 被引量 : 0次 | 上传用户：laogong90

【摘要】

：

随着信息社会的飞速发展，人们对信息的理解的准确性提出了越来越高的要求。如何提高计算机自然语言处理的能力已经成为摆在研究人员面前的一个非常紧迫的课题。计算机在处理中

【作者】

：

左军

【机构】

：

南京邮电大学

【出处】

：

南京邮电大学

【发表日期】

：

2007年期

【关键词】

：

计算机语言处理形式语言理论中文分词分词模型

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着信息社会的飞速发展，人们对信息的理解的准确性提出了越来越高的要求。如何提高计算机自然语言处理的能力已经成为摆在研究人员面前的一个非常紧迫的课题。计算机在处理中文语言的文本时，要对处理的文本要进行词的切分，正确的分词是计算机对中文文本进行理解的前提和基础。本文提出了通过概念分词对中文文本进行处理的方法，有效地降低了文本向量的维度，处理了同义多义的语言现象，缩短了文本处理的时间。 1.在介绍了中文分词技术发展的历史以及所面临的主要问题和难点；同时介绍了当前中分词技术所用到的一些主要的方法和他们的优缺点。 2.为了构建概念分词所需要的概念知识库，本文论述了概念理论领域内主要的研究现状，分析和比较了Hownet(知网)和HNC(概念层次网络)理论各自的优点和不足。 3.提出了概念空间模型的定义，通过概念知识库的设计和概念语义距离的定义来计算文本向量的维度；同时，作者设计实现了概念分词系统模型，包括系统的结构设计和分词相关的各种算法。 4.对实现的分词模型进行了实验和分析，实验数据说明了概念分词技术在某些指标上要优于传统的分词方法；同时，也指出了这种方法的不足和仍需改进的地方。

其他文献

目标营销的数据挖掘模型和技术的研究

计算机和Web技术为电子商务提供了一个巨大的信息平台。该平台为商家和顾客提供了便利的手段来发布和获得相关信息，使得电子商务发展迅速。同时，随着其规模的不断扩大，信息的日

学位

目标营销数据挖掘Web智能信息检索偏好关系电子商务

基于Web服务标准的网格系统研究与开发

网格是一种并行分布式系统，可根据资源可用性、功能、性能、成本及用户的服务质量需求，共享、选择及聚合分布在多个管理域的资源。网格计算要从试验阶段发展到商用阶段仍面临众

学位

Web Services网格服务存储数据资源

数字电视字幕辅助系统的研究与实现

随着通信行业的迅猛发展，数字电视已经渗透到现今人们的日常生活中，成为人们生活中必不可少的一项休闲娱乐活动的工具。世界各国也开始纷纷加入数字电视研究的热潮中，字幕作为数

学位

数字电视字幕辅助系统解码工作性能测试

一种新的基于分布式哈希表DHT的P2P-SIP网络电话研究与设计

随着计算机网络技术的不断发展,网络通信技术已经开始融入传统的电话业务。网络电话成为Internet上新的服务领域之一,不仅具有成本低廉、网络资源利用率高等诸多优点,还可进

学位

VoIPSIPDHTCHORDP2P-SIP网络电话

基于J2EE构架的WebGIS应用研究

WebGIS 是以互联网为环境，以Web 页面作为GIS 软件的用户界面，把Internet和GIS 技术结合在一起，为各种地理信息应用提供GIS 功能。J2EE(Java 2 PlatformEnterprise Edition)是一

学位

网络地理信息系统J2EE空间信息服务

基于NETFILTER框架的内容过滤防火墙的研究与实现

随着Internet的快速发展，网络内容的安全性问题也日益突出。具有高匹配效率的包过滤防火墙，对于网络通信内容的监测、过滤、处理无能为力。应用级代理防火墙虽然能够理解应用层

学位

内容过滤防火墙共享内存操作系统

基于PDF417二维条码算法的实现及其在公安公文系统中的应用

条码技术是迄今为止最经济、实用的一种自动识别技术。条码的广泛应用各行各业，极大地提高了数据采集和信息处理的速度，提高了工作效率，为管理的科学化和现代化作出了很大贡献。

学位

二维条码PDF417公文管理系统编码

蚁群算法求解MDVRP的设计与实现

多中心车辆路径问题( MDVRP )是一个复杂的组合优化问题,其复杂性甚于车辆路径问题( VRP ),该问题在现实生活中普遍存在,与人们的生活息息相关。蚁群算法( ACO )作为一种比较

学位

多中心车辆路径问题蚁群算法分治法综合法

PCM相变存储仿真器的研究与实现

相变存储器即PCM（Phase Change Memory），是一种非易失新型变阻存储器，通过存储单位处于不同的电阻态来记录零和一的数据信号。具有存储密度高、读写访问延迟低等特点。在擦写次数

学位

相变存储器内存系统仿真器性能参数

交叉覆盖算法下文本分类的研究

文本自动分类，是将非结构化的文本依据其内容指派到一个或多个预先定义的类别中去的一项技术，近10年来受到了人们越来越多的关注。这主要因为大量机器可读的电子文本的出现，迫切

学位

特征降维文本分类覆盖算法

基于概念的中文分词模型研究

其他学术论文