中文文本自动分类算法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yzlwxl3554041
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet的迅猛发展和日益普及,电子文本信息迅速膨胀,如何有效地组织和管理这些信息,并快速、准确、全面地从中找到用户所需要的信息是当前信息科学和技术领域面临的一大挑战。文本分类作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱现象的问题,方便用户准确地定位所需的信息和分流信息。而且作为信息过滤、信息检索、搜索引擎、文本数据库、数字化图书馆等领域的技术基础,文本分类技术有着广泛的应用前景。本文对文本分类及其相关技术进行了研究。从提高分类方法的快速性、准确性和稳定性出发,提出多种有效的解决或改进的方法和技术。较系统地综述了中文文本分类中自动分词技术、特征提取技术、文本分类模型和性能评估技术的研究现状和研究方法。较全面地讨论了贝叶斯方法、k近邻方法和AdaBoost等三种中文文本分类方法。作者采用三个模型,实现了朴素贝叶斯分类器、k近邻分类器和Adaboost分类器三个中文文本分类器,集成了一个实用性较强的实验系统。文中深入地分析了k近邻方法的不足,提出了改进的k近邻方法,有基于隐含语义,特征聚合,强化文本中语义链属性因子与检索相结合的迭代近邻法四种方法进行改进,提高了分类器的性能。重点讨论了AdaBoost的相关问题。概述了boost理论的主要内容和应用情况。Naive Bayesian分类器是一种有效的文本分类方法,但由于具有较强的稳定性,很难通过Boosting机制提高其性能。因此用Naive分类器作为Boosting的基分类器需要解决的最大问题,就是如何破坏Naive Bayesian分类器的稳定性。提出了3种破坏Naive Bayesian学习器稳定性的方法。第一种方法改变训练集样本,第二种方法采用随机属性选择社团,第三种方法是在Boosting的每次迭代中利用不同的文本特征提取方法建立不同的特征词集。实验表明,这几种方法各有其优缺点,但都比原有方法准确、高效。实验表明,三种分类器都适合于中文文本分类的需要,其中Adaboost分类器的分类性能最好。而朴素贝叶斯的简单快速,k近邻方法性能适中同样适用于中文文本分类的需要。
其他文献
总结了目前国内过电压在线监测装置的原理和技术特点,按其测量的过电压类型对装置进行分类比较;介绍了一些典型装置的特点,着重分析了数据采集技术和高压分压器;针对近两年出
真空预压技术已在港口、道路工程领域得到应用,但长期以来在作用机理的认识上还存在争论或不明确。结合工程试验资料,对真空预压加固区应力场、孔隙水压力变化以及有效加固范
《中华人民共和国海事诉讼特别程序法》于1999年12月25日第九届全国人民代表大会常务委员会第十三次会议通过,并自2000年7月1日起实施。这部法律的出台,是我国海事审判发展的一
分析了西北电网有限公司1998—2007年10年间的实际调度运行记录,统计计算了陕甘青宁4省(区)及西北电网的逐年各月的最大负荷、典型日24 h负荷变化曲线以及其他负荷特性参数。
<正>从相关部门获悉,继南北中轴地铁1号线后,横跨东西的长春地铁2号线计划2016年建成通车。相关部门负责人介绍,由于长春西站和地铁1号线解放大路站地下预留了地铁2号线的区
市场营销和营销传播在20世纪最后10年所面临的严重挑战丰要来自两个方面:其一是全球一体化所导致的全面竞争格局;其二是信息时代多元选择所形成的新型传播障碍。种种迹象表明
品牌形象的形成是企业与消费者不断互动沟通的产物。回族老字号企业,具有浓郁的地域特色与民族特色,历史悠久的它们,在参与现代市场竞争中,宜从打造公司形象、提升产品与服务
本文旨在以预设及会话含义理论为指导对林语堂小说《京华烟云》中的人物语言进行语用分析,试图探讨以下三个问题:(1)人物语言的会话含义是如何形成的?(2)小说人物语言使用了
劳动教养作为一项具有中国特色的法律制度,为维护社会治安、预防和减少犯罪做出了重要贡献。但是,随着我国依法治国方略的实施以及建设社会主义法治国家进程的加快,劳动教养
随着围海造陆的发展,吹填区底面标高越来越低,吹填土厚度由原来的2 m达到现在的10 m左右,使地基加固时发生很大的压缩变形。在现场真空预压检测过程中发现土体加固后形成上面