【摘 要】
:
词表示研究是自然语言处理中的一个重要任务,在词性标注、命名实体识别、文本分类等自然语言处理应用中具有重要的作用。传统的基于符号的词独热表示无法直接建模词之间的语
论文部分内容阅读
词表示研究是自然语言处理中的一个重要任务,在词性标注、命名实体识别、文本分类等自然语言处理应用中具有重要的作用。传统的基于符号的词独热表示无法直接建模词之间的语义关系。分布式词表示用低维实值向量来表示词,可以通过向量距离来直接度量词之间的语义关系,是当前最常用的词表示方法。尽管已经有很多对分布式词表示的研究,但是其在低频词上仍存在问题。本文主要研究如下问题:(1)分布式词表示在低频词上表现弱于高频词的原因,以及低频词的截止词频(2)利用词内部信息来提升中文低频词词表示的方法。(3)对多种语言通用的低频词词表示提升方法。论文的主要工作包括:提出了一种基于分布式词表示的词平均相似度度量,在不同词表示训练算法、不同语料规模和不同语种上的实验结果表明,词平均相似度具有较好的稳定性,基于此,本文提出了基于词平均相似度来界定低频词的词频。应用此界定而设计的词相似度度量方法在词相似度度量任务中取得了比常用的余弦相似度度量更好的性能,提升大约0.02 到 0.05。提出了一种基于汉字偏旁部首信息提升中文低频词词表示性能的方法。中文的偏旁部首通常具有语义特性,本文采用权值共享的方法,利用低频词和高频词共享的偏旁部首特征来提升低频词词表示,实验结果表明了其有效性,相比基线模型提升大约0.02左右。提出了一种语言无关的伪上下文方法以提升低频词词表示。伪上下文方法是把其他相似词的上下文来用作低频词的上下文,以此达到对低频词上下文的扩充,提高其词频。实验结果表明该方法可以有效提升低频词词表示的性能。
其他文献
换流变压器是高压直流输电系统中的关键设备之一,其阀侧绕组油纸绝缘在运行过程中要承受直流电压作用,而直流电场分布及过渡过程复杂,导致其直流绝缘强度较低,内部放电甚至击穿故障时有发生,因此需要寻找方法来提高油纸复合绝缘的直流击穿强度。大量研究表明,纳米粒子添加可以提高油纸的绝缘性能,但目前的研究大多只是针对单一变压器油或油浸纸,而没有将油纸作为整体考虑纳米粒子对油纸复合的影响。因此,本文对油纸复合直流
面临日益严峻的生态环境污染,我国政府开始逐步增加环境规制的管制范围和强度。政府的环境规制行为一方面起到了改善环境的作用,另一方面也对社会发展和经济增长造成了难以忽视的影响,这其中就包括对就业的影响。就业问题是民生大事,研究环境规制对就业的影响有着理论以及现实意义。本文在爬梳国内外有关环境规制、岗位创造以及环境规制对的就业效应相关文献之后发现,尽管前人的研究已经相当完备,仍有存在内生性问题、样本容量
随着核能发电的发展,核电站的安全性和高效性受到了越来越多的重视。核燃料棒作为核反应堆的核心组件,对其破损情况的及时监测对核电的安全、高效生产至关重要。基于传统化学取样方法诊断和定位破损燃料组件和燃料棒是十分困难的,且探测成本普遍较高,取样周期一般较长,不能及时发现堆内的核燃料组件和燃料棒破损情况,也不能做到连续监测破损状况。本课题结合人工神经网络技术,基于核电站的实时监控系统所反馈的核电站监控参数
随着短视频时代的到来,抖音短视频在快手、美拍、西瓜等众多短视频平台内荣登当红传播媒介的宝座,在拥有超高人气的下载量和4亿多日活用户量的影响下,越来越多的用户、明星、网红、官方媒体进驻到该平台,抖音的短视频的影响力度越来越大。抖音的短视频能够拿到如此傲人的成绩,不仅是其有效传播和商业模式运作的成功,而且从它的美学特征角度去考究,这也是抖音的短视频能够脱颖而出并吸引受众的一个重要方面。本文将抖音的短视
背景全球流行趋势严峻,并且肥胖病容易引起多种并发症。如糖尿病、冠心病、高血压、恶性肿瘤心血管疾病、高血脂、骨性关节炎、冠状动脉疾病、胰腺炎、胆石症、肝肾疾病等并
自2004年第一家汽车金融公司在上海成立以来,我国汽车金融公司的发展已走过了10年的历程。伴随着我国汽车市场的蓬勃发展,汽车金融公司这一新兴行业贷款规模不断扩大,在促进
为了提高道路运输管理信息化、监管和服务的水平。通过调研宁波、杭州等地区的先进经验,与业务部门、执法人员、交管等相关部门进行沟通、认真研究、反复调试和修改完善软硬件设备,结合大数据、物联网、人工智能等新技术,构建呼和浩特市道路运政智慧管理平台,整合原有的业务系统,建立统一的数据中心并对数据进行分析,为运管部门决策提供科学依据。本文以呼和浩特市道路运政智慧管理平台的六项业务为研究对象,以新公共管理理论
股票市场在促进实体经济发展、完善市场经济机制、促进生产要素重新配置和资金的合理流动等方面发挥着越来越积极的作用,股票市场长期以来吸引着人们的目光,并逐渐成为许多人投资的重要手段之一。然而,由于股票市场的高风险,会令许多不熟悉股票的投资者望而却步。股票市场受多种因素影响,并且有着复杂的信息数据,导致很难判断股价涨跌,而数据挖掘技术正适用于解决这样的难题。数据挖掘技术采用一定的关联方法与技术处理数据量
目的:分析伴癫痫发作的额叶病变患者术后癫痫急性发作(acute postoperative seizures,APOS)的发生率、风险因素及长期疗效研究。方法:回顾性分析2013年1月至2014年12月经新疆
本文从余秋雨先生的《行者无疆》翻译实践着手,探讨对文化散文的翻译方法,分析实践中存在的翻译问题。重点阐述词语、句子在不同文化背景中的功能翻译方法,提出文化散文在汉