论文部分内容阅读
随着互联网技术的飞速发展,网络很快成为互联网用户获取信息、交流和学习的重要平台,同时该平台也产生了海量的文本数据,这些数据内容简短,上下文语义关联程度大,表达方式多样,但是蕴含大量的信息。如何处理这些短文本并从中获取有价值的信息,一直以来是人们所关心的问题。文本分类是指将文本信息归为一个或多个类型的过程,可以解决短文本杂乱无章的问题、提高信息利用率以及帮助用户缩小信息检索范围。考虑到这些非结构化文本数据的特点,传统的特征表示方法和分类模型对其直接进行处理结果精度有限。针对这种情况,本文主要从两个方面着手改进:文本特征选择方法和文本分类算法。一、鉴于短文本数据集的非均衡性,传统特征选择方法的不适用性,本文首先把类频方差和卡方检验引入词频-逆文档频率算法中,形成两个单模型特征选择算法,将两个单模型融合再引入词向量训练工具Word2vec形成的算法记为WoTFI,用于特征获取,该模型既考虑到文本数据的语义信息,又兼顾到特征词在类内和类间分布的差异。和不同的特征表示模型对比,WoTFI不仅能够灵活实现特征词权重的分配,也对分类结果产生了积极影响。二、对传统分类算法做了改进,采用双向长短时记忆网络框架结合双通道特征输入的卷积神经网络实现短文本分类。WoTFI作为模型的一种通道特征输入,另一个通道为字符级的特征嵌入表示,通过捕获单词或短语形状和形态信息得到短文本特征,再利用卷积神经网络算法对上述两通道特征处理获取更深层次的特征。在池化层和长短期记忆网络层分别引入局部响应归一化和Dropout策略,使得监督学习算法加快,防止模型过拟合,增加算法的泛化能力。本文的分类模型集成卷积神经网络和双向长短期记忆网络模型的优点,既可以捕获双向语义依赖关系,有效保留短文本的语义信息,同时,避免了长序列训练过程中梯度爆炸和消失问题。实验设置的数据集大小不同、包含中文文本和英文文本、分类的类别数目也不一样,通过对比实验可知,本文模型的性能指标优于传统模型。