词向量的改进及其在作品风格识别中的应用

来源 :大连理工大学 | 被引量 : 0次 | 上传用户:zeer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词向量技术可以将文本中的词表示成低维连续的实值向量。在众多训练词向量的技术中,word2vec凭借其高效和易用性脱颖而出。虽然word2vec已经能够生成包含丰富的语义信息的词表示,但它仍可以被进一步改进从而使获得的词向量质量更高。一方面,word2vec捕获语料中的句间结构信息的能力较弱;另一方面,模型本身缺乏利用大量有价值的关于词的相似性信息的能力。本文针对以上两点提出了两个词向量的改进方法:基于句法占位符的词向量改进方法和基于反馈信息的词向量改进方法。为了增强word2vec捕获句间结构信息的能力,本文设计了一种叫做“句法占位符”的特殊结构。通过适当地向训练语料中加入句法占位符,word2vec模型就能从训练语料中学习到更多的句间结构信息从而使训练得到的词向量包含更丰富的信息。基于反馈信息的词向量改进方法利用模型的输出中所包含的词的相似性信息来改进分层softmax结构,从而让word2vec无需额外的字典库或知识库就能捕获到关于词的相似性信息。实验结果表明,这两种词向量改进方法都能明显地提升word2vec训练得到的词向量质量,得到包含更丰富的语义和句法信息的词向量。使用词向量技术训练得到的词表示以其良好的特性被广泛用来提升多种自然语言处理任务的表现。但在多数情况下,词向量都是被用作一些现有任务的输入特征,研究如何充分利用词向量的优良特性来解决一些实际问题的工作目前还非常少。对此,本文提出利用词向量来进行作品风格识别。特别地,本文基于词向量对作品的时代风格进行了深入研究,并利用词向量对作品的时代风格进行了表示、分析和识别。具体地,本文首先系统阐述了时代风格的概念,接着提出了一种叫做“时代风格向量”的特殊结构来表示时代风格。然后,基于时代风格向量提出了一种新颖的方法来量化时代风格差异,该方法可用于对比不同时代之间或不同时代的作品之间的风格差异。最后,针对实际应用场景,提出了一种基于时代风格来判定文学作品创作年代的方法。实验结果表明,这种作品年代判定方法能够有效地判定未知年代作品的创作年代,且相比于传统的作品年代识别方法更加易用和高效。
其他文献
城市化不断演进的背景之下,湿地作为国家重点保护资源,面临被占用、破坏、污染的窘状。建设湿地公园有助于城市、乡村环境的生态修复与物种资源的保护,更能促进人与自然的和谐共存。本研究以营造生态、休闲、舒适的开放性湿地公园为目的,将参数化相关理念与场地特征结合,对伊川生态科技城湿地公园进行科学、合理规划设计。旨在探究参数化在湿地公园中的应用方法,也对参数化层面的湿地公园研究提供新的思路。本课题采用文献研究
随着经济的发展与社会的进步,餐饮行业迎来了新的机遇和挑战,而消费者对餐饮的需求也在逐步的转变,不管是商家还是消费者主体,都开始注重餐饮环境的改善,基于该前提下,打造独具特色、具有个性化的餐饮设计,成为了大多数消费市场的首选,也成了餐饮空间的主流设计。本文以环境心理学在工业风格餐饮空间中的设计研究为重点,第一,详细的描述了环境心理学发展历程和相关理论,以及工业风格餐饮空间室内设计的相关概念,并且展开
计算机层析成像(Computer Tomography)技术自提出以来应用越来越广泛。因此,计算机层析成像是一个有意义的研究方向。当前计算机成像技术的发展的目标是不断提高的速度和图像
相比表面式永磁同步电机,内置式永磁同步电机(Interior Permanent Magnet Synchronous Motor,IPMSM)的d、q轴电感不相等,因而可以充分利用磁阻转矩获得较大的输出转矩,且具有更宽的弱磁扩速范围,故被广泛应用在电动汽车、数控机床和轨道机车等各方面。然而,IPMSM的齿槽转矩大、转矩脉动高和弱磁困难等问题,严重制约了其在高转速、高精度等场合的应用。因此,本文以
随着下一代无线通信技术日益发展,移动无线网络和多样化的智能终端设备在人们生活中变得越来越重要,然而技术进步所带来的巨大的通信能源消耗和二氧化碳排放等问题日益挑战着
“连类而及”是古汉语中客观存在的一种特殊语言现象,指在说到某一事物时,同时提到了与之相关的同类事物的表达方式,而这个同类事物并不表意,只起陪衬作用。通过全力搜集古今学者关于古籍文献中“连类而及”现象的研究成果或相关论述,本文最终确定134个“连类而及”语例,对之进行较为详尽的分类描述,并由此揭示其形成与发展的原因,纠正古籍注解中因不识“连类而及”而存在的讹误。本文正文共分为五个部分。绪论介绍了本文
随着大数据、云计算和移动互联网等技术的应用与普及,网络空间的安全面临着诸多的威胁,图像安全技术的创新与发展成为大家所关注的焦点。混沌系统理论与实际应用的不断发展为
随着计算机技术的高速发展,图像、视频等多媒体信息越来越多地需要在网络上进行传输,而图像信息常常会涉及到个人的隐私信息、公司的战略利益、政府的军事机密等,因此产生了
推荐系统是解决信息过载问题的有效方法,核心就是利用推荐算法为用户提供个性化服务。常用的推荐算法有协同过滤、基于内容的推荐算法、隐语义模型和混合推荐等,但大部分推荐
传统砂浆与生土墙材之间普遍存在着由于材料的热膨胀系数不一致、砂浆的干缩率大、粘结强度不足和韧性较差而导致的生土墙和砂浆界面容易出现开裂、空鼓、脱落等问题,为了解决以上问题,更好地保护传统民居,本文从材料的角度出发,在水泥砂浆中添加一定掺量的生土、纤维素醚、可再分散乳胶粉和聚丙烯纤维等外加剂进行了生土墙界面粘结材料的研发。本文的主要工作和获得的重要成果如下:(1)在生土掺量为20%的界面砂浆中,研究