稀疏化模型及其在文本分类中的应用

来源 :南京大学 | 被引量 : 0次 | 上传用户:sevenzzzz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的不断发展,信息传播的速度和广度都在快速的增加。同时,数据的规模也越来越大,而由于收集成本的高昂,样本数目远远小于数据的维度。特别地,作为传播信息的重要载体,越来越多的文本形式的信息需要处理。因此,维度非常大而样本数目比较少的文本数据处理成为目前非常热门的研究领域。稀疏化方法作为机器学习中的一个重要方法,具有处理高维小样本数据的特点,同时对于学习的结果还有较好的可解释性。因此,被广泛的成功应用在各个领域中。本文针对稀疏化模型在文本数据上的应用展开研究,主要做了以下两项工作:1.稀疏化模型在中文文本分类中的应用。针对基于中文分词的文本预处理方法有可能会丢失一些对分类有价值的信息,本文提出了一种结合基于字的N-gram文本预处理方法和L1-正则化逻辑回归模型的文本分类框架。通过使用基于字的N-gram方法,不仅可以使得预处理过程变得更加简单,还可以保留尽可能多的有价值的信息。为了所带来的大量的冗余信息问题,本文采用L1-正则化逻辑回归模型。对于N-gram带来的稀疏性问题,L1-正则化逻辑回归模型可以有效的选择出真正对分类有价值的特征。同时,对于特征空间很大导致的优化困难问题也可以有效的解决。文本分类语料库上的实验验证了本文工作的有效性。2.稀疏化模型在文本情感分类中的应用。针对基于向量空间模型的情感分类方法会丢失大量的潜在语义信息问题,本文提出了基于文本图结构表示和图稀疏化模型的情感分类方法。首先使用两种图结构表示方法来表示文本的不同语义信息。然后,针对大量的含有语义信息的结构图表示方法,使用图稀疏化模型来从中选择出有用的结构信息。通过在文本情感分类语料库上的实验验证了本文提出的文本情感分类方法的有效性。
其他文献
摘要:在数据库中发现知识(KDD)是当今国际人工智能和数据库研究的新兴领域,对于时间序列数据的挖掘是其中重要的研究课题之一。本文分析了知识发现与数据挖掘的基本理论与时序