论文部分内容阅读
伴随着信息技术的迅猛发展,互联网上的数据呈爆炸式的增长。Internet中存在着海量诸如文本、图像和音频等各种数据信息,文本数据与其他数据相比,具有占用网络资源小的特点,这使得网上的数据大多是以文本的形式呈现的。为了有效的组织、管理和利用这些文本数据,从中发现有价值的信息,基于机器学习的文本自动分类技术倍受关注。监督学习根据样本标签的个数可以分为单标签学习和多标签学习,多标签文本分类属于多标签学习,在多标签文本分类领域,每篇文档可能有一个或多个标签与之对应。近十年来,多标签学习取得了较大的发展,然而现有的研究中针对文本数据的多标签学习算法较少,多标签文本分类的性能也难以达到满意的效果,其面临的主要问题有:(1)特征空间的维度较高,且其中有较多的冗余特征;(2)样本输出空间的维度极大,学习任务更加困难,因此多标签学习算法的复杂度一般较高,在数据规模上升至十万级时,其效率较低。针对上述问题,本文的研究工作分为以下两个方面:1.将Word2vec引入经典的多标签分类算法ML-kNN,提出了一种基于Word2vec加权的ML-kNN多标签文本分类方法wMLkNN(Weighted Multi-Label k-Nearest Neighbor)。该方法首先基于Word2vec计算特征与标签之间的相关度,对于与标签关联度较高的特征,在ML-kNN模型学习时加大其权重,降低与标签关联度较低的冗余特征的权重,以提升多标签文本分类的精度。2.研究一种基于MPI的并行化ML-kNN算法。该方法首先在不影响算法精度的情况下改进ML-kNN算法中的距离度量公式,其目的是进一步提升并行的效率,再基于MPI将改进ML-kNN算法并行化,以提升多标签文本分类的效率。值得一提的是,本文针对文本数据特征维度较高的特点,提出了一种支持以特征为单位切分数据集的并行化方法,相比单一的以样本为单位切割数据集具有更高的效率。通过在多标签文本数据集的若干实验,验证了本文所提出模型的有效性和优越性。