基于流形学习的文本分类方法研究

来源 :河北工业大学 | 被引量 : 1次 | 上传用户:lgb0532
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本分类在信息检索、文本过滤、文档组织等多个领域有着广泛的应用。在文本分类中,通常用特征词向量来表示文本数据,由于特征词较多导致文本数据的维数过高,经常达数千甚至数万。利用现有的分类方法处理这些高维的文本数据时会产生维数灾难的问题,不仅分类效率低,而且精度也不高。为此,将流形学习应用于文本分类中,利用流形学习算法对文本数据降维,获取低维数据后将其用于分类。本文主要工作如下:首先,提出了一种基于流形学习的文本分类方法。将流形学习应用于文本分类中,通过流形学习对待分类的文本数据做降维处理,获得的低维数据用于文本分类,低维数据的维数比原始文本数据要低得多,从而极大地提高了分类的效率。其次,在流形学习算法中,当在高维空间中求解近邻时,采用的欧氏距离存在失效性,不能真正地表示样本之间的相似程度,造成经流形学习算法降维后的文本数据分类精度降低。针对这一问题,提出了一种新的相似性度量措施——特征词相交距离。特征词相交距离表示的是样本中特征词相同的部分,也就是样本与样本间互相交叉的程度,它可以较好地表示样本间的相似程度。实验结果表明,特征词相交距离替换欧氏距离后的流形学习算法对文本数据降维后,所得到的低维数据用于分类时分类精度得到了极大地提高。最后,将夹角余弦距离和特征词相交距离相结合后形成新的距离代替欧氏距离。在实验中,将夹角余弦距离、特征词相交距离以及二者结合分别代替流形学习算法中的欧氏距离,利用距离替换后的流形学习算法对文本数据进行降维,并将降维后的低维数据用于分类。在实验中,利用的流形学习算法包括ISOMAP、LLE和LE三种算法,分类算法包括SVM、NB和KNN三种算法。实验结果表明,利用基于距离结合的流形学习方法对文本数据降维后再进行分类取得的分类效果最佳,分类精度和分类效率都得到了较大的提高。
其他文献
随着互联网的发展,当今社会早已成为信息化社会,人们对网络上的服务器也提出了更高的要求。传统服务器受内存、CPU和磁盘I/O等的限制,即使经过硬件升级也很难适应当前的需要
智能视频处理目前在“智能交通”、“智慧家居”等方面有了普遍应用,通过对视频监控进行分析,能够有效的进行交通管理,保证广大人民的财产安全。车流量检测是智能视频分析领
  随着计算机技术的飞速发展及其在各个领域的深入应用,不论从国家安全还是经济发展的角度出发,计算机软、硬件系统的自主研发都越来越受到重视。在硬件系统方面,我国已成功研
  随着软件产业的迅速发展,为了保证软件的质量,软件开发人员需要快速、准确地获取各种缺陷信息,及时发现并修改缺陷。软件度量数据是需要获取的重要软件预测信息之一,且它是典
  Leader算法是一种基于粗糙集的层次聚类算法,无需预先指定簇的个数且对孤立点具有鲁棒性,算法思想简单、快速。但该算法也存在一些弊端:对样本采取硬划分、聚类结果依赖样
图像增强是指采用某种特定的方法对图像进行处理,突出图像中有用信息,以满足特定的需求或实际应用。本文以Retinex理论为研究主线,探讨Retinex图像增强算法的基本框架,并针对其中
近年来互联网恶意攻击事件频发,各大安全平台捕获的攻击样本数量不断增多,样本分析成为了互联网安全研究领域的重点。样本分析中的一个核心环节就是漏洞验证。漏洞验证即验证
主元分析PCA方法是一种被广泛应用的过程监测方法。它能够从高维数据中提取出最主要的信息,实现数据的降维,从而简化分析过程,实现对过程的有效监测。对于实际工业生产过程,
无线传感器网络是一种新的信息获取和处理技术,是国内外研究的热点,有着广阔的应用前景。在无线传感器网络中,分布在观测环境中的传感器节点的能量是有限的,因此,无线传感器网络路
随着信息技术在教育领域的深入应用,数字化教育已成为现代教育的重要组成部分。各种教育资源平台的出现满足了人们对教育资源日益增长的需求,同时,也改变了人们获取教育资源