基于迁移学习的短文本用户意图分析与研究

来源 :山东大学 | 被引量 : 0次 | 上传用户:meiaihui
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,人工智能发展如火如荼,自然语言领域在最近两年更是发生了天翻地覆的技术变革,进入了技术井喷的快速发展期,对话系统、机器阅读理解、搜索推荐、文本分类等技术已经成功应用到了生活的方方面面。其中信息检索与搜索引擎应用中,快速与准确的用户意图分析是下一代搜索引擎的热点之一。本课题主要针对于用户在文娱类搜索场景进行搜索时,以短文本下用户的意图分析为研究对象,以文娱类APP下用户的搜索短文本query为研究基础,提出了一种用户query语义空间融合的方法,即将当前搜索Query和实体更好的映射到一个语义空间中,实现了对用户意图的分类判断,并为搜索中下游的召回与排序提供数据依据。在研究过程中建立了用户的短文本数据集,包括两个用户行为的query数据集与Item的信息数据集通过解析用户的搜索Query,其中一级标签共13类,二级标签共244类,实体物品Item数据近3万条。对数据进行分析建模、清洗过滤、长尾处理等,进行一定的预处理。本课题基于Word2Vec、Doc2Vec、Bert模型的无监督学习的训练Embedding方法,结合有监督训练的MLP及FastText、TextCNN有监督学习的标注训练,提出了一个快速、准确的用户意图分类模型,能够对用户的query进行Embedding向量化,并定位标签类别。使用fastText网络进行Embedding多标签分类,进行Embedding+MLP/CNN的item多分类,通过调整数据集的特征维度、fastText模型参数,训练不同的词向量表示,逐步优化词向量模型,探索垂类搜索query在语义空间中好的表现形式,以此迭代出意图识别分类模型。在Linux系统下,基于Tensorflow与fastText框架,对Embedding进行融合,对query维度数据进行标签多分类实验(即用户的意图分类),对Itemid维度数据进行多分类实验。在fastText的query维度数据多分类实验中,分类精度达到85.80%;在MLP模型的Itemid维度数据多分类实验中,头部Itemid 142类的分类精度达到85%,使用MLP+CNN模型,分类精度达到88%;将融合的Embedding在下游召回与排序中使用,ctr转化率提高了 5.16%。依托Embedding的预训练用户意图分析,提升Item在垂类搜索中语义空间的表达,即当用户在搜索中输入query时,可以丰富语义的相关召回,提升用户的搜索体验,同时为下游的召回排序任务提供数据支持。
其他文献
研究背景瘢痕疙瘩是一种临床常见的皮肤创口病理性纤维化愈合疾病,其本质是成纤维细胞过度增殖以及细胞外基质(尤其是胶原蛋白和粘多糖)过度合成和沉积,主要临床表现为超出创口边缘的持续性瘤样增生,且常常侵犯邻近皮肤,并无法自行好转,仅靠手术切除复发概率非常高,形成局部的畸形,甚至对功能产生一定的影响,常常给病人带来困扰和自卑。目前尚缺乏有效的治疗手段,是整形外科亟需解决而尚未解决的难题之一。目前认为瘢痕疙
目的:本研究在坐骨神经慢性压迫性损伤(chronic constriction injury,CCI)大鼠坐骨神经结扎处行脉冲射频(pulsed radiofrequency,PRF),通过疼痛行为学测定和蛋白印迹法(Western blot)、酶联免疫吸附试验(enzyme-linked immunosorbent assay,ELISA)等分子生物学实验,探索坐骨神经PRF干预神经病理性疼痛(
目的:利用流式细胞术(flow cytometry,FCM)结合荧光标记技术检测洗必泰对体外粪肠球菌(enterococcus faecalis,E.faecalis)生物膜的作用。方法:应用2%洗必泰(chlorhexidine,CHX)溶液及生理盐水溶液(normal saline,NS)分别处理体外已培养1d和3w的粪肠球菌生物膜样本5min,随后在继续培养的第0d、1d和7d经PI和SYT
“立法放水”一词源自于G省国家级生态保护区违法立法事件,是指立法工作者违背立法政策的不当立法行为。学界认为该事件属于立法技术问题,做补充规定即可,却忽视了该事件中隐藏的立法不作为(又称立法懈怠)问题。域外的立法不作为理论虽可以部分解释“立法放水”现象,但并不能完整回应该事件中存在的“故意放水、降低标准、管控不严和立法监督不力”等问题。因此也进一步凸显我国现有的立法监督体制仅存在超越权限、下位法违反
第一部分槲皮素对慢性髓性白血病细胞增殖、凋亡影响及其机制研究慢性髓性白血病(chronic myelogenous leukemia,CML)是克隆性的髓系造血干细胞增殖性疾病,占成人白血病的15%
多足机器人是近年来十分具有代表性的仿生机器人,它是一种腿部局部串联,全局并联的足式机器人。机器人拥有整体的高度对称性和腿部关节多自由度的特点,能够完成多种步态的行
随着中国信息化建设的推进和互联网热潮的兴起,中国老年网,中国助老网,心连心老人网等和老年人息息相关的网站相继出现。然而,和养老服务相关的信息管理等方面,仍然存在着明
社会分层感知(Perceived Social Stratification)是个体对自己拥有的社会资源和所处社会等级的感知。社会阶层的构成日趋多元化,社会分层感知的标准和测量方法作为研究的核心,已经不再局限于以往财富、声望、权力等变量。归因(attribution)是对行为进行因果解释和推论的一种内在心理认知过程,不同的归因方式会导致不同的情绪和应对行为。本研究试图通过系统的实证研究,探讨社会分
随着近年来移动互联网的发展和智能手持设备的性能越来越强大,人们在生活中使用社会化媒体应用的频次也越来越高。社会化媒体应用极大的方便了人们与相隔很远的亲人朋友保持
极低分辨率人脸图像仅能为人们提供较少的信息,为后续的人脸检测、识别技术带来了挑战。而人脸图像超分辨率重建技术可以通过对一幅或多幅低分辨率图像进行处理得到高分辨率