中文文本自动分类技术的研究

来源 :兰州大学 | 被引量 : 0次 | 上传用户:zqh88211
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文首先对文本分类的概念、方法、类别及应用等方面进行了一个概括地介绍,然后结合汉语自身的特点较为详细地分析了中文文本自动分类中所涉及到的关键问题及技术,并且特别针对当前中文信息处理领域中所常用的基于字典匹配的文本自动分词方法运算代价较高且容易产生歧义词汇的弊病,提出了一种基于Hash索引和统计信息的无字典中文文本特征提取算法.实验证明,该算法不仅在时间和空间复杂度上较同类基于字典的方法有一定的优越性,而且还比较好地解决了词汇的歧义切分问题.另外,该文还针对基于平面类别空间的文本自动分类方法分类速度和精度都比较低的问题,提出了一种基于空间层次类别和Naive Bayes算法的多层次文本自动分类方法.最后结合上述算法,该文设计出了一种基于向量空间模型(Vector Space Model)和层次类别(Text Hiberarchy Classes)的中文文本自动分类系统原型—HC&CT Classifier.
其他文献
为满足国内工控、嵌入式、多媒体等领域的需要,我们基于红旗Linux开发了RFRTOS实时操作系统.在该系统中,作者主要承担了如下三方面的工作:Linux的时钟粒度很粗糙(10ms),难以满足
该文的主要工作包括:(1)介绍了目前世界上主要的网格项目,对目前使用最多的Globus网格系统进行了详细的分析.(2)采用Globus网格系统设计实现了一个基于广域网的计算网格实验
在中国,居民日常使用的自来水的管理收费多年来一直采用先用、后抄、再付费的传统作业方式.据有关部门统计,仅抄表队伍的人数就数以万计,且人为抄收方式弊端多,工作效率低,给
CAD系统在国内外的各类制造业企业中得到普遍应用,而且在建筑设计、服装设计等领域都有广泛的应用.图纸重用系统可以使图纸设计人员摆脱底层部件的重复设计,而是把工作重心放
图像分割技术是图像处理和分析中的一项关键技术,同时眼底图像分割一直以来也是医学图像处理领域的一个研究热点。眼底视网膜图像被广泛应用于眼科疾病的诊断中,使用图像处理与
随着我国航天遥感事业的发展,在轨运行的遥感卫星和载荷数量不断增多、性能不断提高,为了充分利用卫星资源,尽可能的满足用户成像需求,迫切需要卫星地面系统进行多星综合任务规划
采用Java2技术开发一个B/S结构的网络考试系统,系统继承了Java语言的优势:平台无关性、安全、面向对象(系统的可维护性、可扩展性都很好).该文主要对网络考试中的以下问题进
近几年来,随着Internet的飞速发展,新兴的XML技术得到了越来越广泛的关注。XML是一种为实现与平台无关的数据存储和交换、实现将内容与显示分离而建立的标准。正因为如此XML语
网络技术的发展速度远远超过了构建者的预期,进入网络中的计算单元的数量越来越多和种类越来越繁杂,人们不昨不重新考虑在这种新的形式下的互联网络体系结构.为了适应海量的
该文以油库管理信息系统(OilMIS)为应用背景,运用基于面向对象的软件建模语言UML对它的业务和功能进行分析,结合应用特点建立一个OilMIS应用程序模型框架并给出了基于UML的系