论文部分内容阅读
近年来,随着网络技术的进步,互联网的发展以及网络用户数量的增加,网络数据量呈现指数级增长。虽然大量的数据是有价值的,并且其中大部分数据是文本文档,但是,除非以适当的方式组织这些文本信息,否则用户根据其需要选择有意义的文本信息将成为一个新的问题。处理该问题的一个方式是设计处理自动化的文本分类系统,这个过程被称为文本分类(TC)。文本分类通常需要在线组织和管理大量可用的文本文档。文本分类的目标是首先从已标记的文本文档中学习类别的特征,然后应用学到的类别特征将文本文档自动化地归类为它所对应的类别。在已有的文本分类文献中,大多数文本分类研究的文本主要是由英语、汉语、日语、多数欧洲语言等少数通用语言编写的,然而,由一些小众语言编写的文本进行文本分类需求却在不断增长,例如,属于闪米特语系的提格里尼亚语。但是,针对提格里尼亚语的文本分类所开展的研究却很少。与其他语言一样,由提格里尼亚语编写的数字化文本文档的数量也呈现指数级增长,因此,非常迫切地需要对它们进行组织和管理以便简化提格里尼亚语的存储、搜索、浏览,并且满足用户需求。对由提格里尼亚语编写的文本文档进行文本分类是一项具有挑战性的任务,因为提格里尼亚语的语法和形态是复杂的,同时由提格里尼亚语编写的文档语料资源是非常匮乏的。在本文的研究中,我们提出了针对由提格里尼亚语编写的新闻文章的自动化文本分类模型,该模型分两个阶段进行:数据准备(包括数据清理、文本规范化、分词、去停用词、词干提取以及特征工程等步骤)和利用有监督的机器学习技术去学习分类器。本文的主要目的是利用有监督的机器学习技术为由提格里尼亚语编写的新闻文档最终找到一个非常有效的文本分类模型(也被称为分类器)。由于提格里尼亚语的文本语料非常稀少,因此,构建新的提格里尼亚语的语料库对于提格里尼亚语的文本分类研究是至关重要的。在本文的研究中,我们构建了自己的语料库,并且对提格里尼亚语的新闻文章进行标签标注。构建语料库所使用的原始文本文档来源于名为“哈达斯厄立特里亚”的日报,该日报通常是由厄立特里亚新闻部进行刊登。所构建语料库被随机分层抽样分成两个集合:其中一个集合用于训练,被称为训练数据集,另一个集合被用于测试,被称为测试数据集。其中,训练数据集的文本数量约占总数据集文本数量的80%,测试数据集的文本数量约占总数据集文本数量的20%。除此之外,每一篇新闻文章被人工标注在10个类别标签上,这10个类别分别为运动、科学与技术、政治、关系、法律、历史、健康、教育、经济、文化与社会。由于没有用于提格里尼亚语的自然语言处理工具和资源,我们开始设计新的算法来预处理提格里尼亚语的文本文档。在数据预处理阶段,语言依赖文本规范化、停用词提取器以及提格里尼亚语的词干提取是通过探索和分析提格里尼亚语的语法结构来获得的。文本规范化程序有两个阶段:文本清理和文本规范化。首先从语料库中删除了不必要的标点符号、数字和非提格里尼亚语的单词。为了使语料库中的文本规范化,将从语料库中识别出提格里尼亚语的“cliticized”、“hyphenated”以及“short”这三种形式的单词转换为标准化的正确形式。预处理文本文档的另一种常见做法是识别文档中所含语义非常少的单词,但这些单词出现的频率很高。这些词被称为停用词。已有的研究已经构建了针对不同语言的停用词列表,例如英语,中文,阿拉伯语等,但没有标准方法来识别提格里尼亚语的停用词。因此,我们专门设计了针对提格里尼亚语的停用词提取程序去自动化识别停用词。格里尼亚语的停用词通过标准的逆文档频率方法获得。词干提取是减少单词变体的重要步骤,并且能够加快文本预处理速度并提高文本分类的性能。像阿拉伯语和阿姆哈拉语等其他闪米特语一样,提格里尼亚语的语法形态非常丰富并且复杂。语法形态的主要特征在于屈折和派生,因此可以从单个的提格里尼亚语单词创建大量的单词变体。这些形态可以通过词缀来创建。例如,将前缀、后缀、中缀,或者它们的组合添加到一个提格里尼亚语单词的词根或词干中则可以获得新的单词变体。因此,在文本分类中,提格里尼亚语单词的词干提取对于从这些混合变体中提取它们的共同词根或词干是必不可少的。然而,由于缺乏用于研究格里尼亚语的可利用的并且现成的词干分析器,我们开发了一个使用规则方法去除词缀的程序。在本文的研究中,应用了三种不同的文档向量表示策略来抓取文档特征,并将文档转换为由数字表示的特征向量,处理好的文档特征向量将被用于下一个处理阶段。第一个向量表示策略是使用由词频-逆文档频率表示,也可被简记为“TF-IDF”。TF-IDF是强有力的文档向量表示方法。它能够帮助可视化每篇新闻文章中单词的相对重要性。然而,TF-IDF不考虑特征之间的语义关系。为了将文章中的单词、短语、段落转换为向量表示,word2vec和doc2vec作为新的向量表示策略被应用在不同的自然语言处理应用中(包括文本分类)。Word2vec和doc2vec考虑了特征之间的语义信息,基于这种额外语义信息的假设,我们为基于提格里尼亚语的文本分类构建了有效的词向量嵌入表示和段落向量嵌入表示。为了展示在基于提格里尼亚语的文本分类中如何应用词向量嵌入,我们在整个数据集上训练word2vec来构建提格里尼亚语中词向量的模型。然后,这个词向量嵌入模型的结果将被用于将每篇新闻文章转化为一个向量,该文章向量的表示是通过加权平均所有由TF-IDF表示的词向量。相似地,通过训练两个层次的doc2vec模型构建两个段落向量嵌入,这两个模型分别被称为由词袋表示的段落向量分布(PV-DBOW)和段落向量分布存储器(PV_DM)。然后,我们通过连接两个段落向量表示模型PV-DBOW+PV-DM来构建文档向量嵌入模型,该模型是第三种文档向量表示方法。在将新闻文章文本转换为由数字形式表征的特征向量之后的后续处理阶段是学习分类器。在本文的研究中,分类任务是利用有监督分类器来训练的,其中,训练数据的向量表示有三种形式,分别为 TF-IDF、TFIDF weighted averaged word2vec、PV-DBOW+PVDM。分类器包括K最近邻(KNN)、支持向量机(SVM)、多层感知器(MLP)、随机森林(RF)。在训练期间,我们对训练数据集应用了 10折交叉验证,并调整了每个分类器的超参数,以提高其整体准确性。然后,在测试数据集上测试分类器并评估它们的性能。实验表明,由TF-IDF表示的词向量在SVM中获得了所有有监督分类器中最高的得分,总体准确率为93.65%,紧随其后的是由TF-IDF表示的词向量在MLP中的模型,总体准确率为93.45%。实验结果还表明,非线性的SVMs和MLP在段落向量表示(PV-DBOW+PV-DM)中也获得了比较好的性能表现,总体准确率分别为92.16%和91.07%,紧随其后的是由word2vec表示的词向量的SVMs模型和MLP模型,总体准确率分别为91.96%和91.87%。其中,word2vec表示的词向量是通过加权平均由TF-IDF表示的词向量得到的。实验结果表明,在所有采用的特征提取技术中,非线性高斯SVM和MLP适用于区分提格里尼亚语的文本分类任务。另一方面,由TF-IDF表示的词向量通过随机森林RF模型获得了最低准确度得分,准确度为77.98%。然而,由TF-IDF加权平均得到的word2vec词向量表示却大大提高了随机森林RF模型的性能,平均准确度为91.87%,提高了大约13.89%。这也表明模型需要有一种不仅处理单词重要性而且处理文档中单词之间语义含义的方法。因此,词向量嵌入能够可靠地用于提格里尼亚语的文本分类问题。最后,通过对提格里尼亚语文档中不同向量表示进行比较,可以得出结论:词向量嵌入和段落向量嵌入可以有效地扩展单词和文档的语义特征,使我们能够更加准确地对基于提格里尼亚语的新闻文本进行分类。