大规模高维信息的结构编码学习与索引

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:zap2050zap
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
当前,互联网上的多媒体数据呈现爆炸式增长,人们围绕海量多媒体数据开展了大量应用研究,这些应用研究都脱离不了对多媒体数据的快速检索技术。对海量多媒体数据的检索本质上是大规模高维信息索引技术,其呈现的非结构化、语义多样、维度极高等新特点,使得传统检索方法不再适用。因此,建立面向大规模高维信息的高效检索机制成为了近年来的研究热点。近年来提出的哈希和量化方法层出不穷,为大规模高维信息的快速检索问题提供了新思路。在真实环境的数据规模常可达到数十亿之巨,而目前哈希和量化方法还无法允许有效的层级式数据结构,这导致了对于大规模高维数据的存储效率低、检索精度低、检索时间长的问题。另一方面,对海量多媒体数据的检索主要是基于语义信息的搜索,当数据量极大时,由于缺乏对语义搜索的优化,目前的搜索方法所得到的搜索结果将变得不可用。鉴于以上问题,本文提出了结构化编码的概念,将量化编码映射为层级式的数据结构;进而基于前人的工作,提出了广义残差量化和聚集树;还针对语义数据设计了三种基于深度学习的语义搜索方法。本文通过实验证明了这些方法的有效性。本文的贡献和创新点主要体现在以下几个方面:1.提出了大规模高维数据的结构化编码概念。本文通过量化编码建立对应的树,并使用信息学理论探索高维情况下树结构对搜索效率的影响,从而提出了对量化方法应用于更大规模的高维信息检索上的算法设计依据。2.提出了广义残差向量量化方法。传统残差向量量化在转换为树结构搜索上具有一定优势,但其性能严重受离群点影响。本文基于残差向量量化,提出对由挑选的一个码表生成的扩展残差向量进行量化的方法。本文还设计了一个多阶段的量化步骤。实验结果表明广义残差向量量化方法相比于其它量化方法能够获得更低的量化误差,其可在线学习的特性使其适应于超大规模、动态变化的数据。3.提出了聚集树的非遍历搜索方法。本文使用广义残差向量量化编码构造树搜索结构,在该树中可使用波束搜索进行快速且准确的高维数据索引。本文通过实验比较了不同参数下聚集树的性能表现,结果表明聚集树能够得到相对于其它非遍历搜索方法更优的搜索时间精度比。4.提出了三种基于深度神经网络的同时学习深度特征和量化编码方法。使用孪生深度神经网络得到的深度特征是一种相对于手工特征,更适应于语义搜索的特征向量。但是深度特征仍然需要经过量化处理,而目前缺乏有效的同时进行深度特征提取和量化编码的学习方法。本文提出了以下三种方法解决上述问题:二极管代价函数,该方法通过控制梯度回传从而改进代价函数;宇宙飞船模型,该方法通过为输出值增加动量改进训练监督值;梯度贴合层,该方法通过增加特殊网络层改进训练方法进行同时深度特征和量化编码的学习。通过实验对比探索了这些方法对于同时深度特征和量化编码的学习的特点,并提出了针对大规模搜索的特征学习神经网络的设计依据。
其他文献
<正>唐代一生只留下两首诗的张若虚就是因为《春江花月夜》而"孤篇横绝,竟为大家",该诗被闻一多先生誉为:"诗中的诗,顶峰中的顶峰"。上海大同乐会的柳尧章,也就是因为《春江
龙是中华民族的精神象征,对于中国人而言有着奋发进取和崇高吉祥等象征意义,具有深厚悠远的文化价值和精神指向。龙纹作为中国传统图形中吉祥纹样的代表,其自身的审美寓意、
在给定的多关节焊接机器人焊接点中插入点,对这些点的坐标统一进行十进制编码,应用遗传算法进行轨迹规划,寻找三维空间下的最优轨迹.通过仿真,验证了该算法的可行性.与传统的
背景阿尔茨海默病(Alzheimer’s disease,AD)是最常见的中枢神经系统退行性疾病,其预防及临床治疗迄今仍是世界性难题。AD发病机制复杂,主要有β-淀粉样蛋白(β-amyloid protein,Aβ)沉积、Tau蛋白过度磷酸化、氧化应激等。近年研究表明,突触丢失是AD最早的标志之一,突触可塑性蛋白异常及其棕榈酰化修饰与AD的进展联系紧密。突触后致密蛋白95(postsynaptic
计算机辅助工艺过程设计(CAPP)的核心是工艺决策,由于企业生产资源是动态变化的,CAPP系统的工艺决策就必须能够产生与生产资源相适应的工艺过程.因此,采用合适的方法进行工艺