自适应加权KNN文本分类

被引量 : 0次 | 上传用户:dtj77
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自动文本分类是自然语言处理中重要组成部分,用于组织和管理大量的文本数据,被广泛的应用于信息检索、文档过滤、词义辨析等领域。文本分类涉及的主要技术有特征加权、特征选择、维度约简、文本表示、分类算法等。由于文本分类器在处理高维大数据集时时间和空间复杂度过高,降低文本表示维度和改进分类器设计是文本分类领域的研究热点。KNN(K-Nearest Neighbor)算法分类思想简单、分类效果好,是文本分类领域应用最广泛的分类器之一。但经典KNN算法处理较大规模的文本分类任务时效率较低、分类速度慢,并且分类过程中关键特征与普通特征作用相同,同时也没有区分样本的作用,容易误导分类过程。本文针对上述KNN算法的缺陷,进行了分析和研究,着重进行如下工作内容:1)针对KNN算法对高维特征空间分类时间长、精度低等缺点,提出自适应特征加权KNN文本分类算法。首先,以整体精度为优化目标函数,对特征归一化约束加权;其次,采用改进的归一化约束步长衰减PSO(Particle SwarmOptimization)算法对特征权值自适应优化求解;最后,根据权值计算文本相关性、降低特征空间维度。在复旦大学等语料库上采用十折交叉法进行的实验结果表明,改进后的算法既提高分类器精度又降低分类时间。2)通过对KNN算法分类过程的研究可知,提高算法效率的关键是减少相似度计算量,从而提出自适应样本加权KNN文本分类算法。算法先使用改进的PSO算法对样本权值自适应求解;再通过样本权值缩减样本数量,降低相似计算量;最后在KNN算法的判别函数中加入样本权值,解决KNN算法对样本库容量敏感问题。该算法在TanCorpMin语料库上得到较好的效果。3)为改进KNN算法在高维特征空间和大数据集上的分类性能,提出融合上述两种改进的自适应加权KNN文本分类算法。算法首先对特征加权,降低特征空间的维度,更新特征词库,重新向量化样本库;其次,对样本加权,约简样本;最后,使用加权的判别函数对文本分类。通过实验表明融合后的算法有效降低了分类的时间复杂度和空间复杂度。
其他文献
随着中国工业技术水平的发展,石油的需求量在逐年增加,大量大型油灌区雨后春笋般得产生。大型油罐区的建设使得石油存储安全问题也已经变得越来越重要。油罐燃烧后,火势的蔓
海洋自古以来就是人类生存和发展的基本环境和重要资源,同时也是世界各国融入全球经济体系的重要纽带。我国面临全球陆域资源紧张、能源短缺,世界各国向海洋资源进军的状况,
对口支援,一项具有中国特色的政策。从国内外的经验来看,对口支援在促进落后地区的发展、促进区域经济协调发展、加强各区域的经济交流以及促进落后地区发展稳定方面发挥了正效
我国经济快速发展,物资和旅客的运输需求与日俱增,给我国铁路运输带来巨大的压力。我国铁路运输面临的主要问题是铁路运输能力不能满足日益增长的运量需求。发展重载运输成为
纳米TiO2作为一种具有催化活性高、价廉、耐腐蚀性强、化学性质稳定、资源丰富等优点的催化剂,被认为是目前最具有广阔应用前景的光催化材料之一。但由于Ti02带隙较宽(Eg=3.0
供应链管理近几年得到国内外的制造企业的广泛认可和运用,他是在当前全球经济一体的趋势下提出并形成的一种新的管理模式,具有生产成本低、生产周期短等特点。供应链管理方法
在我国,土地长期以来就是农民赖以生存的基础和生活的基本保障。近年来,随着工业化和城市化进程的不断加快,客观上需要大块土地为城市发展提供必要的条件,于是,征用土地、产
随着世界铁路运输技术的发展和进步,高速重载技术得到越来越多的重视。各国在相继开行重载货运列车的同时,也碰到了诸多的技术问题,特别是纵向冲动较大的问题。列车运行中产
南图尔盖盆地是一个典型的具有“断坳双层结构”的陆相裂谷型盆地。南图尔盖盆地经几十年勘探以来,已经发现了17个油气田。但是,前人对于南图尔盖盆地进行的各种研究工作多是
经济增加值(Economic Value Added,EVA)是美国Stern Stewart管理咨询公司创建的财务指标,它充分体现了公司的财务管理目标在于使股东财富最大化,有效督促公司管理者将股东利益摆