基于词嵌入的阿拉伯文文本分类方法研究

来源 :福州大学 | 被引量 : 0次 | 上传用户:QQPIG
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
大数据时代,组织管理决策需要全局信息的支持,文本数据是主要的信息来源之一。阿拉伯语是世界上最为广泛使用的语言之一,近4.4亿人口使用阿拉伯语。随着“一带一路”倡议的建设,各领域各组织进行管理决策时所涉及的阿拉伯语的文本数据量迅速增长,面临着信息量爆炸所带来的困扰。阿拉伯文(以下简称阿文)文本分类方法是快速准确地挖掘海量阿文文本数据的基础任务,是跨国组织管理决策的技术手段之一,有着越来越重要的研究意义。本文研究阿文文本自动分类方法,研究内容有三:(1)基于改进特征加权方法的阿文词语提取方法研究。该方法基于原子词步长法的词语提取结果,结合TF-IDF算法,引入词的类别密度特征进行文本特征词权重的计算。首先运用现成的阿文文本预处理工具对原始阿文文本进行处理;接着利用原子词步长法进行词语提取,得到候选词集及其词频;然后计算得到词语的CDTF-IDF权重。实验结果表明,本文提出的基于改进特征加权方法的阿文词语提取方法能够有效提取文本的类别特征,改进文本分类效果。(2)基于词嵌入的阿文文本分类方法研究。该方法首先利用Word2vec词嵌入模型将ANT新闻语料库训练为词向量;接着利用词向量的加权平均方法求出多词词语的词向量;结合CDTF-IDF权重与Word2vec词向量构建特征向量空间并进行文本分类实验。实验结果表明,本文提出的基于词嵌入的阿文文本分类方法有效可行。(3)阿文词语提取方法和词嵌入文本分类方法的应用研究。使用NADA新闻语料库与ANT新闻语料库作为文本分类的训练集、测试集及用于训练词向量的背景语料库。首先运用基于改进特征加权的阿文词语提取方法提取候选词集,并进行文本分类实验。其次结合词嵌入的方法,运用基于词向量加权模型的文本表示方法进行文本分类实验。验证上述方法的有效性和可行性。综上,本文针对阿文文本分类问题,研究阿文文本预处理、基于改进的特征加权方法以及基于词嵌入的阿文文本分类方法。与其他经典的方法进行对比,本文方法的召回率、准确率与F1值表现均较为优秀。实验结果显示,本文提出的方法能够有效地提高阿文文本分类的效果。利用这些方法,能够快速地挖掘和获取文本的类别信息,用于支持相关组织的管理决策。
其他文献
长三角城市群作为我国经济发展的重要引擎,其地区生产总值占全国总量的二成以上,但是随着经济的加速发展和城镇化的不断提高,导致长三角地区出现了用地紧张、空气污染等一系列生态环境问题,抑制了长三角城市群的发展潜力,威胁了人们的健康并降低了人民的幸福感。因此,本文对该地区的生态福利绩效及其提升路径开展研究,在准确评价其生态福利绩效的基础上,提出相应的提升路径,以助其突破发展瓶颈、提高民生福祉,从而为最终实
学位
空中交通密度的急剧增长与基本保持不变的民航可用空域资源存在很大的矛盾,由此导致我国的航班延误问题日趋严重,不仅产生了巨大的经济损失,也造成了不良的社会影响。此外,空域资源容易受到恶劣天气等突发状况的影响,导致大面积的航班延误,这已成为我国主要的空中交通问题。传统的不正常航班恢复问题是由空管部门进行决策,航空公司只能遵照执行,美国联邦航空局提出了基于协同决策(Collaborative Decisi
学位
随着泛在网络时代去中心化特征的日渐成熟,基于用户生成内容(User Generated Content,UGC)模式下的在线问答社区已然成为用户寻求自身个性化信息需求的习惯性偏好渠道,量身定制信息推送、专指性资源聚合等多维信息服务也成为学界及问答社区研究与关注的焦点。然而,现有的绝大多数更具用户专指性且面向特殊用户群体中弱势群体的在线母婴问答社区却将庞杂的用户生成信息资源按时间或极简主题进行堆叠与
学位
在这个互联网时代,信息呈现“爆发性”增长,文本是信息表达和传递的主要形式,进行文本分类可以让用户更好地筛选出特定领域的文本,从而可以更好地研究和利用文本本身的价值。文本分类方法有很多,随着技术的发展,在分类效果、分类速度和迁移性等方面都有了很大的进步,基于深度学习的文本分类方法也让文本分类技术有了进一步的发展。传统的文本分类方法主要存在以下不足:不能很好处理大样本数据、计算量大、处理大量数据时训练
学位
在双渠道的产品销售过程中,虽然不同渠道的产品具有同质性,但线上渠道往往具有价格优势,而线下渠道具有服务优势。消费者可以通过线下渠道接受服务、体验产品,然后转到线上渠道进行消费,以获得效益最大化,即搭便车行为。供应链成员对搭便车行为的态度因其所处的位置不同会有极大的差异。行为科学的研究发现,决策者是有限理性的,在关注自身利益的同时也关注利益的分配是否符合公平。当产品销售过程存在搭便车行为且供应链成员
学位
随着全球科学技术革命和产业革命的新一轮加速,以智能、绿色、低碳为特征的现代工业企业已形成了一种国际产业分工和全球贸易的新型模式。因此,党的十九大报告提出“加快发展先进制造业,将中国产业推向全球价值链的中高端,培育若干世界级先进制造业集群”的工业发展战略规划。纵观中国工业发展长河,虽然一直积极嵌入国际贸易垂直分工,工业企业在经济、技术方面得到了飞跃的提升,但中美贸易争端的技术制裁,发达国家逆全球化思
学位
随着供应链上不确定因素的出现,模糊的市场需求获得了极大的关注。与此同时,消费者对延保服务的需求和零售商对新的利润增长点的追求,使得零售商乐意提供延保服务。产品与延保服务之间的从属关系不仅相互影响定价,且都对市场需求和收益产生影响;另一方面,消费者对产品价格和服务质量的敏感、决策者对收入分配公平性的关注,会进一步对供应链决策产生影响。因此,模糊需求下考虑相关因素的供应链产品与延保服务联合定价研究,具
学位
在“互联网+”的时代背景下,电子商务的个性化、便捷服务使得广大消费者对线上琳琅满目的商品触手可及。2020年由于新冠疫情导致品牌商家线下业务受阻,促进线上业务逐步走强。电子商务时代,电子商务供应链(又称E-供应链)获得了显著的发展,制造商选择开通线上转销或代销渠道拓宽销路,电商平台吸引更多的商家入驻,提升用户的购物体验、平台的利润。在双向选择过程中,由于制造商和电商平台不对等的议价权,会产生制造商
学位
进入数字时代,全球许多国家和地区都将发展数字经济产业作为国家的产业振兴战略。随着信息化进程的推进,数字技术逐渐取代传统产业发展所需要素,成为现代产业发展的关键,同时也转变了传统企业的生产方式,推动我国经济的高质量发展,提升产品转换效率,促进新经济发展形态形成。顺应全球化的时代潮流,为了给数字经济的高质量发展提供动力,推动数字技术产业落地、企业智能化和传统产业与数字技术的融合,我国推出了“数字中国”
学位
随着人口老龄化和慢性病患病率的增加,药物治疗的复杂性随之增长,致使药房面临巨大的压力。因此,过去十年来,药房自动化配药系统(Pharmacy automation dispensing systems,PADS)已被广泛应用,并提升了药房效率和安全性。但是,当前的PADS在配药时以处方订单为单位,按照药品的种类进行配药。患者或其家属在每餐服药前都必须根据处方自行对药品进行二次分配,这还需要花费大量
学位