【摘 要】
:
垂直搜索是一种专业领域内的搜索,与通用搜索不同,垂直搜索需要深度理解用户意图并返回特定领域内的信息。由于垂直搜索引擎中需要针对不同领域训练多个意图识别模型,同时训练模型需要大量的标注,所以在垂直搜索场景下训练意图识别模型的代价是较高的。本文主要解决在垂直搜索场景下训练意图识别模型成本大的问题。作者的主要工作包括基于SimNet的语义向量预训练和基于迁移学习的意图识别模型训练。(1)基于SimNet
论文部分内容阅读
垂直搜索是一种专业领域内的搜索,与通用搜索不同,垂直搜索需要深度理解用户意图并返回特定领域内的信息。由于垂直搜索引擎中需要针对不同领域训练多个意图识别模型,同时训练模型需要大量的标注,所以在垂直搜索场景下训练意图识别模型的代价是较高的。本文主要解决在垂直搜索场景下训练意图识别模型成本大的问题。作者的主要工作包括基于SimNet的语义向量预训练和基于迁移学习的意图识别模型训练。(1)基于SimNet的语义向量预训练,主要利用搜索引擎积累的海量数据,预训练基于语义的句向量。作者利用本文首创的QUQ(Query to Url to Query)游走算法获取大量的弱标注样本,通过海量样本训练SimNet模型,最终根据SimNet模型生成语义向量。经过实验验证,语义向量可以很好的表达句子语义,并具有一定的泛化性。(2)基于迁移学习训练意图识别模型,主要利用预训练的语义向量迁移到意图识别模型中,并且利用主动学习与迁移学习减少标注成本。首先将样本转化为语义向量并利用种子样本初始化意图识别模型,然后利用改进后的最优标号与次优标号(Best vs Second-best,BvSB)算法,降低了样本冗余并且挑选出信息量较高的样本,最后利用该样本训练意图识别模型。经过实验验证,利用迁移学习训练意图识别模型,可以减少一半以上的标注成本;利用改进的BvSB算法挑选样本,可以进一步降低标注成本,并提高模型的准确率。百度垂直搜索已经有大小十余个领域利用本文工作训练意图识别模型,训练成本有很大幅度的减少。相关模型已经应用到百度搜索中,提升了上亿搜索用户的搜索体验。
其他文献
电力推进系统由于具有机动性能好,占用空间少,推进效率高等优点,在船舶业中得到较为普遍的应用,已成为篷勃发展的主流。随着船舶电站的日益复杂,对电力电子功率器件的容量、
网络广告以它超大的覆盖范围、多维性、交互性、高效性、成本低等特点受到了许多广告主的青睐。由于我国目前还没有关于网络广告的专门法律,而网络广告这一广告形式是在《广
综合近年来应用稀土元素研究白云岩储层流体作用特征的结果,结合对四川盆地和塔里木盆地典型样品稀土元素特征的分析,提出了辨别不同流体来源及作用特点的主要模式:1)受成岩
陶行知先生的教育思想对小学语文教育创新有重要的影响,探析其思想精髓,能培养学生的自主意识,扩大想象空间,激发创新潜力,培养创新能力,切实提高小学语文教师教学效率和教学
目的通过建立大鼠脊髓损伤模型,探讨蜘蛛香环烯醚萜类对脊髓损伤是否具有抗氧化的保护作用,并研究其对Nrf2/ARE信号通路相关氧化基因的调控作用;此外,选用H_2O_2诱导PC12细胞氧化损伤模型,从体外进一步探讨蜘蛛香环烯醚萜类激活Nrf2/ARE信号通路对氧化损伤PC12细胞的保护作用机制。方法1.将60只SPF级成年雄性SD大鼠随机分成三组(每组20只):假手术、模型组、10 mg/kg蜘蛛香
电影一直是广大人民群众喜闻乐见的娱乐方式,是社会主义文化市场的重要组成部分,随着近些年国家对电影市场的大力支持和各界资本的涌入,中国的电影市场这些年的发展可谓日新
探讨DNA提取中不同蛋白质变性剂对胞嘧啶(C)和5-甲基胞嘧啶(5mC)色谱的影响,建立蝴蝶兰类原球茎DNA总甲基化水平的HPLC测定方法。本实验采用2种CTAB法(蛋白质变性剂不含酚和含酚)提
《红楼梦》在叙述与对话中,引用了数以百计的俗谚、歇后语、古诗文,显示了曹雪芹语库之丰浩,造成了作品的多色调的语言风格,为后人叹为观止。本文将这些引用纳入修辞范围,略
褐煤中低温焦油是煤热解过程中一种重要产物。中低温煤焦油含有大量的脂肪烃和芳香烃,可以通过催化加氢的方式制取高品质燃料,是一种很有潜力的石油补充能源,然而中低温煤焦
自从2008年美国宣布加入跨太平洋伙伴关系协议(Trans-Pacific Partnership Agreement,TPP)谈判以来,澳大利亚、秘鲁、马来西亚、越南、日本、墨西哥、加拿大都先后加入该协议