基于深度学习的检索模型

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:csj123
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前我们正处在人工神经网络发展的高潮期,最近五年来,深度学习在图像识别、语音处理、机器翻译三个领域取得了巨大的成功。信息检索作为与自然语言处理高度相关的领域,也受到了这轮技术浪潮的影响。目前,SIGIR中涉及神经网络的论文正迅速增多,神经网络已经成了当前信息检索领域研究的前沿热点。  目前的深度检索模型可以分为两大类:注重表示学习的模型和注重匹配学习的模型。其中注重匹配的模型是近年来研究的重点。其利用相似度矩阵来刻画查询与文档间的匹配关系,具有训练数据要求小、在长文本上性能好等优点。  本文以匹配学习的代表模型DRMM为基础,围绕基于深度学习的检索模型这一主题,研究了如何构造相似度矩阵、如何从相似度矩阵中提取相关信息、如何基于相关信息为文档排序三大问题。  本文比较了了基于大规模语料预训练的词向量和基于同领域语料库预训练的词向量对模型性能的影响。本文尝试通过对余弦相似度进行非线性变换来改进现有的度量方法。本文还尝试通过二次型或是MLP替代余弦相似度从而获得更好的相似度度量。本文对比了由传统的伪相关反馈技术预测的扩展查询词与由词向量计算出的扩展查询词间的区别。本文通过加权的方法将伪反馈技术与现有模型相结合并以此研究了查询词扩展技术对模型性能的影响。  本文对比了基于分布统计的相似度建模、基于卷积神经网络的相似度建模、基于篇章建模的相似度建模间的差异。本文研究了不同核函数对基于分布统计的模型带来的影响。本文通过卷积操作将短语级别的匹配信息融入了相似度矩阵之中。本文接着对比了基于卷积神经网络的模型在单独使用池化层和联合使用卷积层与池化层前后的性能区别。本文探索了如何传统有效的局部篇章信息融入现有模型中。本文将文档拆成固定长度的篇章并在篇章内捕捉相似度信号,然后利用循环神经网络将篇章的相似度信号整合为文档分数。  本文阐述了现有模型训练过程中存在的过拟合问题并尝试通过正则化手段和模型参数调整来解决这个问题。本文验证了多种相似度信号融合方法在本模型上的表现。本文尝试了通过加权将查询级别特征转化为文档特征并最终整合为文档得分。本文还尝试了如何使用全连接网络和LSTM来整合不同查询词的特征表示。本文探索了如何将多种相似度建模技术组合起来以达到更好的性能。具体的,本文尝试用分布统计方法替代卷积神经网络中的池化层。本文还尝试使用分布统计方法代替篇章建模中的池化方法。
其他文献
经济的全球化,竞争的激烈化,使企业逐渐走向双赢的合作。一个企业依靠自己的能力很难在各个方面与竞争对手抗衡。从宏观上来看,竞争已不仅简单存在于企业之间,而是扩展到供应
随着Web服务标准的完善和支持Web服务平台的逐步成熟,网络上可用的服务越来越多,基于Web服务的应用也越来越多,但是现有的服务大都是单个而且功能简单的服务,组合现有的Web服
随着互联网的不断发展,Web应用程序具有了更强大的功能和更好的人机交互体验。Web应用在给人们的生活带来了便捷的同时也带来了一系列的安全隐患。Web安全漏洞层出不穷,跨站脚
互联网已成为人们获取信息最重要的途径,互联网上的绝大多数信息是以人们理解的格式来表示的,而作为智能软件代理并不理解和处理这些信息,互联网的潜力还远远没有挖掘出来。
运用卫星遥感技术的沿海水质实时监视与速报,对于国民经济有着重要的指导意义。本文利用卫星MODIS提供的对长江三角洲沿海区域的五种水质因子数据,进行聚类分析和比较研究,为沿海水质实时监视与速报提供了研究基础。 本文具体工作主要包括:(1)分析遥感卫星所提供的卫星遥感数据,开发对应的卫星遥感数据分析和处理平台,介绍平台的功能模块和演示遥感数据的读取。(2)在基于K-均值聚类算法的基础上进行海洋遥
如今,Web已经成为网络信息的主要平台,是人们获取知识的主要来源。但是,由于Web页面的无结构性、超链接的自由无序性、以及Web内容的海量性、多样性和动态变化性,使得人们从W
作为从万维网上海量的文本信息资源中发现潜在的有价值知识的一种有效技术,Web文本挖掘正方兴未艾。Web文本分类研究是Web文本挖掘中的一个研究热点。在Web文本分类中,通过更
近年来,各种针对计算机信息系统的攻击越来越普遍,并且变得更加难以防范。其攻击方式从传统的本地病毒攻击逐渐演变成分布式、高速传播的网络攻击行为。现有的入侵检测技术由于
目前,主要有两类信息安全保护技术:信息加密和信息隐藏。  信息加密和信息隐藏技术的关系很密切,信息加密是将秘密信息加密为密文数据,这样未授权用户没有密钥就无法获取秘密
随着信息技术的发展,计算机在各行各业中的应用越来越深入。计算机系统的漏洞引发的后果也愈发严重。计算机软件漏洞检测技术的研究对提高系统安全性有着重要意义。  本文首