基于用户点击数据的大规模文本合并

来源 :杭州电子科技大学 | 被引量 : 0次 | 上传用户:jessicazrz
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对细粒度图像分类识别,提出利用用户点击信息构建图像语义特征,即每一张图片会被表示为它点击的查询文本次数向量。由于包含丰富的语义信息,相比于传统的视觉特征,这种表征往往识别精度高。但是,由于文本集规模巨大、非常冗余,直接使用点击特征进行识别也存在诸多挑战。针对细粒度图像识别的应用,本文提出利用文本聚类降低文本空间并优化原始点击特征,从而建立紧致有效的文本空间来表征图像。特别地,提出了一种新颖的基于点击信息进行文本聚类的方法。与传统的基于文本特征的聚类方法相比,该方法能更好地合并语义相近的文本,同时实现跨语种的文本合并。这种方法有两大特点:一是基于点击信息的文本表示,它将每一个文本表示为一个图像点击次数向量。同时,为了解决这种表征中的稀疏性,提出基于视觉相似一致性的点击传播算法;第二则是基于点击信息的聚类模型。提出了基于热门词汇的稀疏编码的聚类;同时,为了进一步提升聚类效果,构建了一个新颖的深度学习模型实现更有效的聚类。本文在微软发布的Clickture-Dog大数据集上进行了大量的实验。实验结果表明:1)在图像表征上,点击向量特征优于传统图像视觉特征,图像识别任务中的准确率也更高;2)基于视觉相似度的传播算法能帮助提高点击特征的表征能力;3)在大规模文本聚类中,基于稀疏编码的聚类方式优于传统k-means算法的,尤其在稀疏编码中使用了 ’热词’方式取得的字典后,其性能更佳;4)图像的文本点击与深度视觉特征融合后,可以达到更鲁棒的识别性能。
其他文献
生产力的维持对于稳定生态系统功能、服务和复原力等具有十分重要的作用,理解生产力的驱动因素是我们理解自然生态系统功能的基础。目前,关于生产力的研究,解释生物因素对生
背景与目的目前,阴沟肠杆菌复合体(Enterobacter cloacae complex,ECC)所包含阴沟肠杆菌、霍氏肠杆菌等多个菌种及亚种在自然界中广泛存在、传播。作为临床上重要的条件致病
介质谐振器天线(DRA)以其小型化、设计自由度灵活、馈电方式和工作模式多样化、辐射效率高和功率容量大等特点,获得了广泛的研究和关注。一方面,随着通信系统对提高集成度、
目标检测技术广泛应用于公共安全、军事国防、医学等领域。本文针对利用单一的结构光深度图像或彩色图像、同时利用原始低分辨率结构光深度图像和彩色图像进行目标检测存在准确率不高的问题,围绕图像超分辨率重建、联合结构光深度图像与彩色图像的目标检测,开展了如下研究工作:(1)针对SRCNN、ESPCN等无法同时满足较好重建效果和实时处理要求,提出了一种新的基于CNN的图像超分辨率重建方法。以未做任何预处理的低
背景:外周T细胞淋巴瘤(peripheral T-cell lymphoma,PTCL)是一种高度异质性的非霍奇金淋巴瘤(non-Hodgkin lymphoma,NHL)亚型。为了预测PTCL患者的预后,目前已有多种预后模型
随着信息化时代的到来,大数据对存储器件的容量提出了越来越高的要求,摩尔定律面临着严峻挑战,亟需寻找一种新型电子元器件,记忆电阻应运而生。以记忆电阻为代表的记忆元素(记忆电阻和记忆电容)凭借其独特的非线性电学特性在非易失性存储、人工智能计算机、模拟电路和人工神经网络等领域被广泛研究,尤其在非易失性存储和人工神经网络领域展现了巨大的应用潜力。本文以供体-受体类型的共聚物为功能材料,制备了具有Al/共聚
随着政治、经济、文化、教育、现代生活方式等各方面的突进及国民对成人教育多元化的需求,中国成人教育取得了较大的发展,成人教育在提高国民整体素质方面也做出了不可磨灭的贡献。但目前成人教育普遍存在重知识技能、轻思想政治教育的现象,使得成教学生思想政治教育工作步履维艰。同时信息化的变革和全球化的推进,极大地冲击着人们的思想观念和行为习惯,在这种复杂的环境下成教学生的思想政治教育工作要想取得实效性的发展,绝
当机体受到应激刺激时,下丘脑-垂体-肾上腺即HPA轴激活,最终由肾上腺皮质释放大量的糖皮质激素,维持内环境稳态。然而在一些伤害性刺激如脓毒症的情况下,机体会出现肾上腺皮
目的:通过对中医治疗荨麻疹内服中药的相关文献进行数据挖掘,总结内服中药治疗荨麻疹的规律,探索治疗荨麻疹的有效药物,并提高临床疗效。资料与方法:检索2009.1.1-2019.12.31
TCP转录因子是一类植物特有的转录因子,广泛参与到调控植物生长发育的过程当中。本研究以白桦为试材,对TCP家族PCF亚类BpTCP1和BpTCP2基因及启动子的组织部位表达特异性及激