基于知识迁移的查询纠错方法研究

来源 :北方工业大学 | 被引量 : 0次 | 上传用户:whbniuniu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
搜索引擎已经成为了人们生活中必不可少的一部分,提高搜索引擎效率,使用户能够更快的找到自己想要的信息是一项重要的工作。如果用户输入的查询词中存在错误,那么显然很难得到令人满意的结果。在搜索引擎中,有很大可能性是在查找不熟悉的领域的内容,比起其它文本输入,更容易出现输入错误。许多传统的纠错模型都存在一些缺陷。如,无法对各种错误类型进行统一建模,往往针对不同的错误进行分别纠错,再通过pipeline的方式结合,这种方式往往会造成错误积累,一种错误的纠错效果很好,但多种错误却并不理想。还有很多数据驱动的学习型算法,对于标注数据的依赖太大,在查询纠错领域无法找到足够的训练数据。针对以上问题,本文主要提出了使用一种模型对多种错误进行统一建模处理,并且充分利用了无标注数据中的知识,进行知识迁移,可以有效提升模型的效果。最后,针对中文标注数据集的欠缺,提出了一种自动生成标注错误语料的方法,从而进行中文纠错的研究。本文的研究的具体内容主要有以下两个方面:1.提出了一种基于字符的端到端模型,主要使用基于attention机制的Seq2Seq模型,并融合了无标注语料上训练的神经网络语言模型,缓解了对标注数据集的依赖问题。端到端的模型可以对不同的错误类型进行统一建模有效改善了传统方法的缺陷。实验表明,在公开的英文查询纠错数据集上,模型可以取得良好的效果,attention机制和神经网络语言模型可以有效提升纠错模型的效果。2.针对中文查询纠错领域,标注数据的严重不足,本文提出了一种基于规则和自动语音识别相结合的训练语料自动生成方法。根据用户输入习惯与发音特点,模拟出用户的输入错误,同时也通过统计和深度学习方法,生成了更广泛的错误类别。实验表明本文提出的方法同样可以在中文纠错中取得良好的效果,语言模型可以有效提升纠错模型的效果。同时,实验也表明了生成更广泛的错误类别,可以提高训练数据的质量,对模型的泛化性能有着一定的提升。
其他文献
口述史学有悠久的发展历史。文字发明前,世界各地的历史是借助于诗歌和神话等口述历史的形式传承下来。早期历史学家著史时兼用口述史资料,是历史学对远古传统的一种回应与延
我国持续性的健康发展离不开水资源的支撑,水务企业在这一过程中占据了至关重要的地位,但由于水务资金管理的限度以及气候的不断变化,出现了很多问题。这就要求水务集团务必
目的分析阿托伐他汀与曲美他嗪联合应用于冠心病治疗中的临床效果。方法选取我院收治的78例冠心病患者,对其一般资料予以回顾分析,按照治疗方式将其划分为Ⅰ组(26例)、Ⅱ组(2
在后期的思想中,海德格尔除了重点论述技术与艺术外,还关注到了技术与艺术之间的关系。探讨技术与艺术之关系的意义何在?一方面,艺术与技术关系问题的讨论是贯穿整个美学发展的,其中还延伸出诸多美学理念。分析两者的关系不失为一种把握美学发展脉络的有效途径,尤其是对现代美学而言,可谓是意义重大。另一方面,海德格尔在指明现代是一个图像时代、技术时代的历史大背景下,以存在主义视野重新定义技术与艺术的关系,为美学提
过去企业在做人事信息管理工作的时候,都是将员工的资料等信息以纸质版本存放,归档在档案柜中。这种传统的管理办法在企业员工不断增加的情况下就会造成不好管理、查询麻烦、
近年来河南西部寒武系研究取得显著进展。主要有1、采获了许多重要的三叶虫化石,以此基本统一了划分意见,确定地层层序自下而上为:下寒武统辛集组、馒头组;中寒武统毛庄组、
本文论述了金伯利岩的地质、地球物理和地球化学特征。提出了寻找金刚石矿床的地质和物化探综合方法以及评价异常的标准。在普查阶段利用航磁和航空电磁性快速、经济而行之有
随着信息技术的不断进步,人们已经进入了信息化的时代,信息技术的革命带动了新兴企业的发展,但同时也给传统的发展模式带来了强烈的冲击,例如图书馆业务的管理。传统的人工管
小说《青纱帐》、《母亲》、《丑妻》表现了作家自觉的对黑土地的文化反思意识:黑土地文化既有传统的页面,又有积极的文化成份.
随着经济的发展和新型教育理念被广泛接受,当前的室内设计学科也在朝着多元化的方面发展,在科学技术与社会、文化、心理因素等方面的研究日益成熟健全的今天,设计理论也在逐