提格里尼亚语新闻分类研究

来源 :北京交通大学 | 被引量 : 0次 | 上传用户:liak19870702
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,随着网络技术的进步,互联网的发展以及网络用户数量的增加,网络数据量呈现指数级增长。虽然大量的数据是有价值的,并且其中大部分数据是文本文档,但是,除非以适当的方式组织这些文本信息,否则用户根据其需要选择有意义的文本信息将成为一个新的问题。处理该问题的一个方式是设计处理自动化的文本分类系统,这个过程被称为文本分类(TC)。文本分类通常需要在线组织和管理大量可用的文本文档。文本分类的目标是首先从已标记的文本文档中学习类别的特征,然后应用学到的类别特征将文本文档自动化地归类为它所对应的类别。在已有的文本分类文献中,大多数文本分类研究的文本主要是由英语、汉语、日语、多数欧洲语言等少数通用语言编写的,然而,由一些小众语言编写的文本进行文本分类需求却在不断增长,例如,属于闪米特语系的提格里尼亚语。但是,针对提格里尼亚语的文本分类所开展的研究却很少。与其他语言一样,由提格里尼亚语编写的数字化文本文档的数量也呈现指数级增长,因此,非常迫切地需要对它们进行组织和管理以便简化提格里尼亚语的存储、搜索、浏览,并且满足用户需求。对由提格里尼亚语编写的文本文档进行文本分类是一项具有挑战性的任务,因为提格里尼亚语的语法和形态是复杂的,同时由提格里尼亚语编写的文档语料资源是非常匮乏的。在本文的研究中,我们提出了针对由提格里尼亚语编写的新闻文章的自动化文本分类模型,该模型分两个阶段进行:数据准备(包括数据清理、文本规范化、分词、去停用词、词干提取以及特征工程等步骤)和利用有监督的机器学习技术去学习分类器。本文的主要目的是利用有监督的机器学习技术为由提格里尼亚语编写的新闻文档最终找到一个非常有效的文本分类模型(也被称为分类器)。由于提格里尼亚语的文本语料非常稀少,因此,构建新的提格里尼亚语的语料库对于提格里尼亚语的文本分类研究是至关重要的。在本文的研究中,我们构建了自己的语料库,并且对提格里尼亚语的新闻文章进行标签标注。构建语料库所使用的原始文本文档来源于名为“哈达斯厄立特里亚”的日报,该日报通常是由厄立特里亚新闻部进行刊登。所构建语料库被随机分层抽样分成两个集合:其中一个集合用于训练,被称为训练数据集,另一个集合被用于测试,被称为测试数据集。其中,训练数据集的文本数量约占总数据集文本数量的80%,测试数据集的文本数量约占总数据集文本数量的20%。除此之外,每一篇新闻文章被人工标注在10个类别标签上,这10个类别分别为运动、科学与技术、政治、关系、法律、历史、健康、教育、经济、文化与社会。由于没有用于提格里尼亚语的自然语言处理工具和资源,我们开始设计新的算法来预处理提格里尼亚语的文本文档。在数据预处理阶段,语言依赖文本规范化、停用词提取器以及提格里尼亚语的词干提取是通过探索和分析提格里尼亚语的语法结构来获得的。文本规范化程序有两个阶段:文本清理和文本规范化。首先从语料库中删除了不必要的标点符号、数字和非提格里尼亚语的单词。为了使语料库中的文本规范化,将从语料库中识别出提格里尼亚语的“cliticized”、“hyphenated”以及“short”这三种形式的单词转换为标准化的正确形式。预处理文本文档的另一种常见做法是识别文档中所含语义非常少的单词,但这些单词出现的频率很高。这些词被称为停用词。已有的研究已经构建了针对不同语言的停用词列表,例如英语,中文,阿拉伯语等,但没有标准方法来识别提格里尼亚语的停用词。因此,我们专门设计了针对提格里尼亚语的停用词提取程序去自动化识别停用词。格里尼亚语的停用词通过标准的逆文档频率方法获得。词干提取是减少单词变体的重要步骤,并且能够加快文本预处理速度并提高文本分类的性能。像阿拉伯语和阿姆哈拉语等其他闪米特语一样,提格里尼亚语的语法形态非常丰富并且复杂。语法形态的主要特征在于屈折和派生,因此可以从单个的提格里尼亚语单词创建大量的单词变体。这些形态可以通过词缀来创建。例如,将前缀、后缀、中缀,或者它们的组合添加到一个提格里尼亚语单词的词根或词干中则可以获得新的单词变体。因此,在文本分类中,提格里尼亚语单词的词干提取对于从这些混合变体中提取它们的共同词根或词干是必不可少的。然而,由于缺乏用于研究格里尼亚语的可利用的并且现成的词干分析器,我们开发了一个使用规则方法去除词缀的程序。在本文的研究中,应用了三种不同的文档向量表示策略来抓取文档特征,并将文档转换为由数字表示的特征向量,处理好的文档特征向量将被用于下一个处理阶段。第一个向量表示策略是使用由词频-逆文档频率表示,也可被简记为“TF-IDF”。TF-IDF是强有力的文档向量表示方法。它能够帮助可视化每篇新闻文章中单词的相对重要性。然而,TF-IDF不考虑特征之间的语义关系。为了将文章中的单词、短语、段落转换为向量表示,word2vec和doc2vec作为新的向量表示策略被应用在不同的自然语言处理应用中(包括文本分类)。Word2vec和doc2vec考虑了特征之间的语义信息,基于这种额外语义信息的假设,我们为基于提格里尼亚语的文本分类构建了有效的词向量嵌入表示和段落向量嵌入表示。为了展示在基于提格里尼亚语的文本分类中如何应用词向量嵌入,我们在整个数据集上训练word2vec来构建提格里尼亚语中词向量的模型。然后,这个词向量嵌入模型的结果将被用于将每篇新闻文章转化为一个向量,该文章向量的表示是通过加权平均所有由TF-IDF表示的词向量。相似地,通过训练两个层次的doc2vec模型构建两个段落向量嵌入,这两个模型分别被称为由词袋表示的段落向量分布(PV-DBOW)和段落向量分布存储器(PV_DM)。然后,我们通过连接两个段落向量表示模型PV-DBOW+PV-DM来构建文档向量嵌入模型,该模型是第三种文档向量表示方法。在将新闻文章文本转换为由数字形式表征的特征向量之后的后续处理阶段是学习分类器。在本文的研究中,分类任务是利用有监督分类器来训练的,其中,训练数据的向量表示有三种形式,分别为 TF-IDF、TFIDF weighted averaged word2vec、PV-DBOW+PVDM。分类器包括K最近邻(KNN)、支持向量机(SVM)、多层感知器(MLP)、随机森林(RF)。在训练期间,我们对训练数据集应用了 10折交叉验证,并调整了每个分类器的超参数,以提高其整体准确性。然后,在测试数据集上测试分类器并评估它们的性能。实验表明,由TF-IDF表示的词向量在SVM中获得了所有有监督分类器中最高的得分,总体准确率为93.65%,紧随其后的是由TF-IDF表示的词向量在MLP中的模型,总体准确率为93.45%。实验结果还表明,非线性的SVMs和MLP在段落向量表示(PV-DBOW+PV-DM)中也获得了比较好的性能表现,总体准确率分别为92.16%和91.07%,紧随其后的是由word2vec表示的词向量的SVMs模型和MLP模型,总体准确率分别为91.96%和91.87%。其中,word2vec表示的词向量是通过加权平均由TF-IDF表示的词向量得到的。实验结果表明,在所有采用的特征提取技术中,非线性高斯SVM和MLP适用于区分提格里尼亚语的文本分类任务。另一方面,由TF-IDF表示的词向量通过随机森林RF模型获得了最低准确度得分,准确度为77.98%。然而,由TF-IDF加权平均得到的word2vec词向量表示却大大提高了随机森林RF模型的性能,平均准确度为91.87%,提高了大约13.89%。这也表明模型需要有一种不仅处理单词重要性而且处理文档中单词之间语义含义的方法。因此,词向量嵌入能够可靠地用于提格里尼亚语的文本分类问题。最后,通过对提格里尼亚语文档中不同向量表示进行比较,可以得出结论:词向量嵌入和段落向量嵌入可以有效地扩展单词和文档的语义特征,使我们能够更加准确地对基于提格里尼亚语的新闻文本进行分类。
其他文献
目前,腰痛渐渐成为影响人们生活的首要疾病,四季均可发病,其发病率较高,约有80%的成年人有过腰痛的经历。司机、护士、体力劳动者因工作具有重复性、反复性,使得人体腰部长期
航空公司在运行过程中,作为直接关系到飞机的飞行安全和维修成本的飞机维修管理信息系统,受到越来越广泛的重视和研究。随着计算机、数字通信等技术的迅猛发展和航空维修业市
随着信息技术的发展,网络上涌现出越来越多的表格数据。这些结构化的网络表格覆盖面广且信息量大,因而备受人们关注。与传统的关系表相比,网络表格具有不规范性、不确定性和异构性,这些特性使得机器很难自动识别其语义。实体列是网络表格中最具有语义代表性的属性列,对网络表格实体列的准确发现,将极大地促进机器对表格主题的标注及语义的理解。已有的实体列发现方法主要有两类,即基于知识库的发现方法和基于规则的发现方法,
本试验旨在研探讨葡萄皮渣在蛋鸡产蛋高峰后期饲粮里添加(wine grape pomace,WGP)对蛋鸡的生产性能、鸡蛋的蛋品质及血液抗氧化水平的影响,以为改善该阶段蛋鸡生产中问题提供
石墨烯具有优异的电学、光学性能,这使得其在光电器件方面有很大的应用潜力,有必要对化学气相沉积法制备石墨烯薄膜和大面积单晶进行研究。在应用于器件时,石墨烯通常需要由
粒子群优化算法作为群体智能算法中的重要组成,在人工智能领域上大放异彩,成为世界各国算法研究者研究的热点问题。因其参数少、表达简单、易于实现、高效等优点已经应用在许
黄蜀葵花为锦葵科秋葵属植物黄蜀葵Abelmoschus manihot(L.)Medic的干燥花冠,始载于《嘉祐本草》,气微香,味甘甜。黄葵胶囊是以黄蜀葵花为原料而制成的单方制剂,具有减轻肾小
教师话语是教师进行课堂教学的语言,同时也是学生学习外语时课堂内容输入的重要媒介,教师话语质量直接决定学生的语言输出质量和课堂教学的成效。在英语课堂上,教师如何运用语言来达到有效和高质量的提问,如何通过语言实现交互作用,从而调整课堂进程,并对学生回答进行有效合理的反馈等已成为值得思考的问题。在《普通高中英语课程标准(实验)》(2003)实施十多年来,随着教学新观念的不断传播,对课堂教师话语的深入研究
领域自适应作为迁移学习的主要研究分支,能够帮助分类模型从源领域的数据中提取知识,并在有不同分布的目标领域中完成目标任务的预测。而当前随着互联网技术的发展,丰富的数据来源带来了海量的数据,这为传统机器学习模型带来了帮助,也造成了阻碍。这种阻碍主要是数据的多样化造成了数据领域之间分布不同,从而影响了机器学习模型的效果,而领域自适应方法的研究,正是为了普遍性地解决或减小这种阻碍。在以往的领域自适应方法中
在不可再生能源不断消耗的大背景下,探索可替代的再生清洁能源成为能源发展的必经之路。油脂是一类重要的可再生资源,能够通过多种方法转化为适宜碳链长度的生物基燃料油。催化裂化法是制备生物基燃料油研究的主要方向,该方法将油脂在催化剂的作用下经过高温反应,转化为更有经济价值的烃类物质。本文以氧化钙为主要研究对象,首先探索其催化裂化小桐子油制备生物基燃料油的最优工艺条件,然后通过氧化钙负载硝酸铝解决其成型问题