基于语义自编码哈希学习的跨模态检索方法

来源 :数据分析与知识发现 | 被引量 : 0次 | 上传用户:muzhou22
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
[目的]通过语义自编码器挖掘底层特征和高层语义之间的相关性,缩小不同模态数据之间的异构鸿沟,并结合哈希学习提高跨模态检索的精度和速率.[方法]利用语义标签信息学习特征语义联合表示,构造语义仿射矩阵,结合自编码器和线性回归学习哈希函数,通过相似性度量获得最优的哈希码.[结果]在WIKI、MIRFLICKR、NUS-WIDE三个公开数据集上进行验证,所提方法在4种不同码长下的平均MAP值较LSSH、FSH、ACQ、DBRC、SPDH、SePH、SMH中的最高值分别提高0.1135、0.0278、0.0505.[局限]所提方法主要适用于对多种模态数据进行线性投影,对于非线性问题未能取得较好的效果.[结论]所提方法可以缩小多模态数据之间的异构鸿沟,将不同模态相似数据转化为相同的哈希码,有效提高了跨模态检索的精度和速率.
其他文献
[目的]解决传统方面级别情感分析模型在词嵌入过程中未将上下文与方面词信息融合、需以复杂的下游结构提取特征等问题.[方法]提出一种基于BERT的注意力门控卷积模型(BAGCNN),该模型由预训练B E RT模型生成融合上下文语义的文本和方面词特征表示,并引入多头自注意力机制解决方面词长距离依赖问题,最后利用门控卷积网络并行地选择性提取与方面词信息相关的多层次上下文特征.[结果]实验结果表明,与使用循环神经网络中效果最好的基准模型相比,本文模型精度在Restaurant、Laptop和Twitter三个数据集
[目的]在不同结构的网络中,各链路预测算法的预测效果存在不同程度的差异,通过对多项研究的数据进行统计分析,可以系统挖掘网络结构特征中影响链路预测结果的主要参数.[方法]选取国内外关于链路预测的相关实证研究,最终纳入5篇文献、22个网络、26种算法和278项研究,利用三水平元分析和贝叶斯网络元分析方法探讨网络结构中影响链路预测结果的主要因素及其对各算法预测结果的影响.[结果]纳入研究的算法总体预测的效应量MD=1.183 2(95%CI:(1.000 5,1.365 9)),网络密度、平均度和聚集系数是影响
[目的]构建能捕获局部关联和表达用户显隐式偏好的深度协同过滤模型.[方法]在显式推荐任务中嵌入利用隐式反馈查找的相似群,通过多层感知机分别同时对用户-项目、用户-相似项目群、项目-相似用户群进行建模.[结果]在MovieLens两个数据集上的实验表明,该模型较各类协同过滤推荐算法的MAE和RMSE降低幅度分别最高达10.94%和11.79%.[局限]使模型达到最佳性能的近邻数在不同数据集存在差异,最佳近邻数的确认问题有待探索.[结论]该模型通过嵌入隐式相似群能有效弥补局限,使推荐结果更准确.
[目的]探索融合多源数据和场景相似度计算的方法,为用户精准匹配相应的数字资源.[方法]本文提出一种融合多源数据和场景相似度计算的数字资源推荐方法(CF-SSC),通过构建融合多源数据的场景模型得到场景数据的抽象表示,基于细化的相似度指标计算场景相似度,最后根据相似度等级预测得到场景列表及相应资源,以此优化推荐结果.[结果]相比于CF-Pearson、CF-Cosine、IOS和User-MRDC,本文所提CF-SSC算法在指标MAE(0.688)上表现最优,在指标RMSE(0.936)上仅略次于User-
[目的]提出一种单分类器联合多任务网络的隐式句间关系分析方法,即基于单分类器的多任务学习模型进行中文隐式句间关系识别.[方法]多任务学习方法通过对隐式句间关系和显式句间关系进行联合建模而获得更好的结果;而单分类器是通过将四分类问题转换为二分类问题进行训练而获取结果.[结果]基于哈尔滨工业大学的中文篇章级语义关系语料库,在扩展关系和并列关系的语料中F1值分别达到0.94和0.81,在4种句间关系的F1值上均取得显著提升.[局限]模型效果还可进一步提升,数据集分布不够均衡且有待扩充.[结论]在哈尔滨工业大学的
[目的]为进一步挖掘突发公共卫生事件微博文本深层语义信息,提出一种基于特征融合和注意力机制的多通道微博情感分析模型.[方法]首先,在特征向量嵌入层利用Word2Vec和FastText生成词向量,并与词性特征向量和位置特征向量进行融合;其次,基于CNN和BiLSTM构建多通道层以提取微博文本局部和全局特征;接着,通过构建注意力机制层以提取微博文本重要语义特征;最后,在融合层合并多通道输出结果,并在输出层采用Softmax函数进行情感分类.[结果]在42 384条突发公共卫生事件新冠疫情微博数据上进行对照实
[目的]引入巴斯模型,弥补当前微信公众号内容传播研究中忽略其双层传播模式的不足.[方法]通过对微信公众号内容传播过程的分析,提出结合巴斯模型和SIR模型的微信公众号内容传播模型.利用“图情会”公众号数据对模型拟合情况进行KS检验.利用Python语言对模型中参数及模型初始条件进行分析.[结果]模型总体上能够对公众号内容的传播过程进行模拟.已分享过的读者不再进行分享的概率,以及非公众号订阅用户从他人转发分享中接触到信息的概率对公众号内容在目标群体中的扩散范围有较大影响.[局限]本模型没有结合复杂网络模型作进
[目的]探讨产品描述的信息质量和知识生产者的可信度对用户知识付费行为的影响机制以及考查产品类型的调节机理.[方法]基于信息采纳模型,运用知乎Live的Python爬虫数据,结合文本分析与稳健回归分析方法,从产品描述的信息质量和知识生产者的可信度两个方面探究知识付费行为的影响因素,并将知识付费产品划分为实用型产品和享乐型产品,比较不同产品类型之间作用路径的差异性.[结果]产品描述的详尽性、生动性和相关性显著正向影响知识付费行为;知识生产者的声誉、经验和信息完备性显著正向影响知识付费行为;与实用型产品相比,享
[目的]改进PubMedBERT在化学诱导性疾病(CID)实体关系分类的效果.[方法]提出一种基于PubMedBERT并结合Text-CNN的实体关系分类方法.该方法以实体对和文本组成句子对进行输入,利用PubMedBERT预训练模型对化学诱导性疾病相关文本进行编码获取全局特征,通过Text-CNN捕捉文本局部重要信息,判断实体对是否具有CID关系.[结果]在BioCreative V CDR数据集中,该方法的精确率、召回率和F1值分别达到78.3%、73.5%和75.8%,较其他方法最少提升了 3.1%
[目的]从社交媒体视角出发,提出一种全新的知识发现思路和方法,预测医药领域主题关联机会,实现新兴主题早发现、早研究.[方法]以社交媒体为数据源,针对医药卫生领域文本挖掘研究方法存在的不足,提出Co-LDA主题模型和链路预测相结合的方法,预测核心主题关联机会.并选用新浪微博中糖尿病类药物数据为实验样本,对所提方法进行实例验证.[结果]医药研究领域不含权主题共现网络链路预测AUC值高于含权网络,且最优指标为Katz指标;未来糖尿病药物领域研究最可能和药效学研究与治疗方案的改进、医药行业发展以及药物新适应症研究