在人们对文本采集需求不断提升的背景下,带噪短文本去噪问题成为研究的重点问题。基于此,分析了带噪短文本的结构特征以及噪声特征,并对几种传统文本去噪算法进行了简要介绍,然后探讨了快速去噪的算法流程和相关技术,以期能够为相关从业人员提供有效参考。
为了实现根据商品标题信息进行商品自动分类的功能,提出了基于词频-逆文本频率(TF-IDF)的中文Fasttext商品分类方法。该方法首先利用FastText本身的特点,将词库表示成前缀树;然后对n元语法模型n-gram处理后的词典进行TF-IDF筛选,从而在计算输入词序列向量均值时,偏向高群分度的词条;最后将文本内容以字符顺序进行大小为N的窗口滑动操作,使其更适用于商品标题分类。基于Anacond
随着大数据时代的来临,互联网进入人们的生活。信息与数据也是以各种各样的形式出现:语音、视频、图像和文本等。在这些数据形式中,文本数据一直以传输速率快、内存小等优势传播最为广泛。正因如此,文本形态的数据越来越多。从文本数据中获取到最有用的信息这一问题,成为了领域内很受欢迎的课题。要从文本中获取信息,首先需要对其进行分类,文本分类也就此产生。由于短文本的数据稀疏、歧义,对这种文本形式进行分类就成了文本
以提升fastText短文本分类模型性能为目标,从获取高质量的类别特征、降低N-gram子词中低类别区分贡献度子词对模型学习高类别区分贡献度语义特征时产生的干扰角度展开研究,提出基于TF-IDF的LDA类别特征提取方法以提升类别特征质量,提出基于词汇信息熵的N-gram子词过滤方法过滤N-gram子词中低类别区分贡献度子词,并构建更专注于高类别区分贡献度语义特征学习的EF-fastText短文本分