融合词性和位置信息的增强词向量学习模型研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:xiaogaojuanJUAN
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,人们可获取数据的规模和数据的复杂度都在急剧增长。传统的基于特征工程的机器学习方法由于使用具有维度灾难问题和语义鸿沟问题的One Hot向量作为特征表示,在性能上渐渐达到了瓶颈。随着深度学习技术在自然语言处理(Natural language processing,NLP)领域取得的成功,词向量表示技术作为深度学习的基础受到了广泛的关注。目前针对词向量的研究工作侧重于通过优化模型结构以减少模型复杂度或是利用跨语言信息、情感信息等因素来增强词向量的学习。但词性信息作为自然语言中重要的因素,几乎很少被考虑到,因此为了能够充分利用词性这一重要因素提出融合词性和位置信息的增强Skip-gram词向量学习模型。该模型借助已有的词性标注工具对单词进行词性标注,并通过构建单词间的词性关联关系矩阵对词性关联关系进行建模,再利用建模后的词性与位置信息帮助在给定目标词时预测上下文单词这一条件概率的计算,从而将单词间的词性关联关系与位置信息用于词向量的训练过程中,关联关系矩阵中的权值在模型训练过程中随着其他参数一同更新。最后将在不同的训练集上训练得到的词向量分别通过单词类比任务和单词相似度任务实验来验证新模型的有效性。实验结果表明提出的新模型在两类任务的性能结果上都有一定程度的提升,尤其对罕见字的学习效果更加显著。说明词性和位置信息在词向量的学习中扮演着重要角色。
其他文献
从2017年以来,国内许多城市陆续推进了新一轮户籍改革,学界将此称为“户籍新政”。本文挑选具有代表性的西安、长沙、成都和武汉四个新一线城市作为研究对象,分析本轮“户籍新政”出台的宏观背景和四个城市在政策上的差异,以此检验“户籍新政”能否促进当地的经济发展。与以往的户籍改革不同,本轮“户籍新政”在多个方面体现出了新的特征。四个新一线城市都无一例外都打出人才引进的旗号开始此次户籍改革。通过研究发现,它
近年来,Airy脉冲由于具有无衍射、自加速和自愈特性,成为了最近几年研究的热点并引起了人们广泛的关注。人们对它的研究涉及了理论和实验、线性和非线性、基础研究和潜在运用
随着全球能源危机和环境问题的日益严峻,风能、太阳能、水能等可再生能源的开发和利用迫在眉睫,微电网作为可再生能源的有效利用方式得到了广泛的应用与良好的发展。相比于单一的交流微电网和直流微电网,交直流混合微电网之间互相提供功率支撑,提高了系统的稳定供电性能;而且由于本身容量的增大,减小了负荷投切引起的系统波动,在负荷投切的灵活性方面有所提升,保证了重要负荷的可靠用电。因此推动交直流混合微电网的研究与应
传统蜂窝移动中,设备间的通信交流必须经由基站中转才能进行,传输简单、设备间通信也互不干扰,但由于通信占用了很大的专有信道和频谱资源,这就使有限的资源难以满足日益增加
花生作为一种重要的经济作物在我国有很重要的地位,在花生生产过程中主要有三种收获方式:分段收获、两段收获和联合收获。其中以两段收获方式较为普遍,花生植株的挖掘、去土
XLPE绝缘电力电缆已经成为当今城市供电线路的主流,为了电网能够正常运行、节约不必要的损失,对XLPE绝缘电力电缆检测技术以及相关标准展开深入的研究是非常必要的。电缆绝缘
根据2018年中国全面小康研究中心向社会发布的《社会信用小康指数》报告显示,食品安全问题已连续七年被列入最受关注的“十大焦点问题”,现如今吃的放心、吃的安心得到社会的广泛关注。习近平总书记曾多次对食品安全作出重要指示批示,在2015年中央政治局第二十三次集体学习时,更是提出了“四个最严”的标准,要求各级食品安全监管部门以最严谨的标准、最严格的监管、最严厉的处罚、最严肃的问责,保障人民群众舌尖上的安
超短脉冲光纤激光器具有高平均功率、高峰值功率、高转换效率等优点,2μm波段激光以其在医学、军事、科研等领域的巨大应用价值成为研究热点。为了获得高功率2μm波段脉冲激光的稳定输出,通常采用啁啾脉冲放大(CPA)技术来实现。2μm波段脉冲激光还可以进一步进行光谱展宽,实现宽光谱的脉冲输出。本论文重点围绕高功率掺铥光纤放大器以及超连续谱产生展开研究,主要工作如下:第一部分,对课题的研究背景及意义进行阐述
脑部磁共振(Magnetic Resonance,MR)图像常用于诊断脑部疾病。在临床上,医生通过分析脑MR图像中脑组织的大小、形状和位置来对脑疾病进行评估和制定医疗方案。由专家手工分割
从2G到3G,再到4G,电信网络的布局越来越密集,而由于城市功能高度集中、土地稀缺,三大运营商要想获得理想的信号铁塔建设场地,难免冲突,且代价高昂。尤其是4G时代,由于其高频