融合多特征的老挝语词性标注研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:HuSiYou
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
老挝网络文本蕴含着大量关乎民意的信息,如何从这些数据里抽取出有价值的信息成为自然语言处理的研究重点之一,但国内外面向老挝语的自然语言处理研究工作较少。老挝作为中国的邻国之一,是“一带一路”的重要盟国,却未达到语言互通的要求。词性标注作为信息抽取研究的一项重要基础任务,本文提出一种融合多特征的老挝语词性标注方法,以解决研究存在的难点,其主要包括以下三个部分:(1)由于老挝语通过词序表达语法含义,而且句子较长,模型构建了 BiLSTM-Attention-CRF模型作为词性标注模型的基础框架,以此来融合词序特征和长远上下文特征。首先,该模型使用带有Attention机制的BiLSTM网络处理每个老挝词的输入向量。然后,CRF模型考虑词性相关性来计算出词性标签。在实验阶段,研究采用HMM、CRF,CNN-CRF和BiLSTM-CRF模型作为对比模型,结果表明了 BiLSTM-Attention-CRF模型的优越性,其准确率达到92.67%。(2)面对老挝语低频词识别的主要挑战,该文提出了“音素级别”的词向量方法来将音素特征融合到BiLSTM-Attention-CRF模型中,音素特征有利于表达词的形态结构信息。首先模型将音素作为子单元,并使用多卷积核神经网络来提取音素向量之间的特征关系来构成“音素级别”词向量,然后“音素级别”词向量将会与由FastText预训练的词向量进行拼接构建出“音素级别”的词特征向量,来进一步丰富词的形态结构信息。由实验结果可得,BiLSTM-Attention-CRF模型融合音素特征后,其准确率达到93.11%。实验还测了融合了音素特征的BiLSTM-Attention-CRF对主要词性标注的F1绝对提高率,词性F1值的一致性提高证明了提出方法的合理。(3)为了进一步加强模型对低频词的识别,该文提出了联合TF-ISF辅助损失和主辅音辅助损失的多任务学习方法,以此融合句子主题特征和主辅音分布特征。TF-ISF算法是将主题提取算法TF-IDF应用于句子级别,而主辅音是老挝音节的重要组成部分。在多特征的融合下,模型的准确率达到93.41%,相比语言辅助模型拥有自己的优势。而且为了实验合理性,该文还使用BiLSTM-CNNs-CRF作为对比模型,在公开数据集丹麦语与西班牙语测试了模型部分思想的表现,结果表明提出方法对低频词识别的高效表现。
其他文献
中国是茶叶的故乡,中国人自古以来就有制茶、饮茶的习惯。近年来,中国茶叶的内销量和出口量逐年上涨,茶叶带给人们的经济效率也迅速增加。目前,国内的茶叶采摘方式主要是人工采摘为主,机械采摘为辅。人工采摘费时费力效率低下,并且由于农村大批劳动力涌入城市务工,在采茶期没有足够的劳动力进行采茶工作,导致了部分茶叶错过采摘最佳时期,甚至无人采摘,给茶农造成了经济损失。现有的机械采摘虽然效率高,但是采摘时缺乏选择
习近平《论中国共产党历史》是一部重要的党史著作,不仅阐述了党史是"最好的教科书""最好的营养剂""最好的清醒剂",阐述了在中国特色社会主义进入新时代的历史条件下,开展党
随着社会经济不断增长,市场化改革力度持续加大,电力企业在市场大潮流下经过改革与创新,获得了空前的发展。我国电力事业进行市场化改革已经有很长一段时间,但在改革中仍存在很多难点和问题,这些问题阻碍了电力市场化的进一步深化改革,阻碍了电力事业进一步发展与进步,因此要创新改革思想和改革理念,积极采取措施解决改革中出现的问题,电力行业关系民生的基础行业,它的改革方向对整个国民经济命脉有着很大的决定性作用,研
Ⅳ-Ⅵ族半导体锡-硒材料体系的研究可以追溯到二十世纪五十年代。近年来研究报道在硒化锡(SnSe)单晶发现超高的热电性能,使得这些材料成为热电研究领域的热点。大量的理论和实验工作从热输运和电输运等方面研究了p型SnSe晶体超高热电性能的物理机制,加深了对层状半导体SnSe材料的理解,也促进了热电理论的发展。从目前的文献调研来看:不同课题组利用不同方法制备出的SnSe的电/热输运性能有很大的差别,对S
水体富营养化会导致蓝藻水华的大规模爆发,而微囊藻是最常见的蓝藻之一,抑制蓝藻、控制水体富营养是水体修复研究的重要领域和研究热点。本研究在对武汉地表水体富营养化及周边环境调研的基础上,选取武汉地区水华优势藻类惠氏微囊藻为实验藻种,探究了光照、pH值、氮磷比、氮、磷等环境因素对其生长的影响,并选取樟树、构树、柳树等三种树叶的蒸馏水浸提液进行了抑藻效果研究,最后结合扫描电镜(SEM)、液相色谱(HPLC
近年,随着能源、分子探测等领域对高电导率金属氧化物研发的重视,二氧化钼(molybdenum dioxide,MoO_2)作为一种具有完整配位的金属性氧化物材料而受到关注。初步研究表明二氧化钼具有较高的化学稳定性(不溶于强酸和强碱)、较好的抗氧化性和高导电性,使得MoO_2在储能材料电极、催化剂及表面增强拉曼散射领域存在潜在的应用前景。尤其是,MoO_2作为一种稳定且具有高浓度自由电子的金属氧化物
盗窃罪是古老而又多发的犯罪,可以说盗窃这种行为应该是伴随着人类发展的历史过程,经过实践的发展,慢慢地形成了系统的概念,并逐步发展完善。在我国,有关盗窃罪的立法和司法解释在与时俱进,学术界和司法实务界对盗窃罪有关规定的争论也一直在持续。《刑法修正案八》确定了现阶段我国盗窃罪的定罪模式,即将多次盗窃、携带凶器盗窃、扒窃、入户盗窃四种行为方式与数额要求并列作为盗窃罪的罪状,这是盗窃罪发展史上的一个重要变
2013年,中国国家主席习近平先后提出了“新丝绸之路经济带”和“21世纪海上丝绸之路”的合作倡议,后简称“一带一路”倡议。“一带一路”倡议自提出以来就得到了中国国内和国际社会的广泛关注,其在经济、政治、文化等领域所取得的成果备受瞩目,已然成为代表中国国家形象的“名片”。本文以美国两大主流报纸《华盛顿邮报》和《纽约时报》的官网报道为研究对象,探讨西方媒体关于“一带一路”倡议的报道策略,以及对我国对外
互联网技术发展日新月异,网络数据也增长迅速。面对海量的、形色各异的数据,人们疲于主动挖掘得到精细的有效信息。信息抽取旨在从非结构化文本中自动地提取出结构化的数据。其中一项关键技术便是关系抽取,它能够抽取一段文本中两个客观实体和其蕴含的关系事实,进一步组织为三元组形式的结构化知识,为知识图谱的构建和自动问答等下游任务提供了基础数据。关系抽取一般可分为两个子任务:实体识别和关系分类。实体识别是从文本中
镁合金有许多优于其他金属材料的性能,在航空航天工业中具有广阔的应用前景,十分适合在航空航天器的外壳、减振系统以及其他构件中应用。镁合金复杂铸件在精密铸造过程中极易