基于显著图加权视觉语言模型的图像分类方法

来源 :计算机工程 | 被引量 : 0次 | 上传用户:kilmic1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统基于视觉语言模型(VLM)的图像分类方法在参数估计阶段,通常采用最大似然估计的方式统计视觉单词的分布,忽略了图像背景噪声对该模型参数估计的影响。为此,提出一种新的图像分类方法。利用基于视觉注意的显著性检测算法提取图像中的显著区域和背景区域,构建的图像带有显著图标识的视觉文档,训练视觉单词的显著度权重和条件概率,并使用显著图加权视觉语言模型进行图像分类。实验结果表明,与传统VLM等方法相比,该方法能有效克服图像背景噪声的影响,增强视觉单词的区分性,提高分类准确率。
其他文献
打工文学的出现有其深刻的社会背景和文化原因。现代作家早就开始对生活在社会底层的打工群体的生存状态与精神状态予以深切的关注,他们以底层生活和打工群体为内容的文学创
为了解决无线传感网节点供电的问题,本文提出了一种基于超材料天线的带有射频能量收集节点。通过无线的方式将能量提供给无线传感器节点。本文中首先介绍了法布里-珀罗谐振腔的原理,并对FSS以及EBG两种超材料进行了介绍。然后对能量收集系统进行了介绍,首先使用天线收集环境中的电磁能量转化为交流的电能,再通过整流等步骤将交流电能转化为直流电能,存储起来供用电器件使用。为了验证本文提出的方法的有效性,分别对天线
瓦斯发电机组在运行过程中,实际的发电功率都小于设定功率,发电效率需要进一步提高。发电机功率主要受瓦斯含水量、温度、压力、浓度等因素的影响,其中瓦斯压力的影响较大。
高等职业教育从本质上说是以培养高素质实用型、技能型人才为根本目标的。高等职业教育是以就业为导向的教育,只有熟练掌握了各种职业技能,学生在就业时才能实现和工作岗位的
以山西省长治市武乡八路军太行纪念馆为例,基于游客多元感知体验视角,使用因子分析、回归分析,研究游客对旅游地的满意度。结果表明:游客对武乡八路军太行纪念馆的总体满意度
“媒介事件”自1992年被提出后,广泛应用于新闻界和营销界,借用媒介事件进行营销传播是企业常用的营销策略。2019年9月,支付宝推出的“中国锦鲤”营销活动,利用了“锦鲤”这
含氟密封剂具有优异的耐油耐高温性能,是未来高速飞行器的整体油箱用密封剂材料,通过对氟硅、氟醚和氟碳3种密封剂材料的分类,综述了目前的研究方向和取得的进展。 Fluorosi
城乡统筹进程的推进促使新农村建设速度加快,传统村落形态在建设过程中迅速更新,在新农村建设的名义下对村落进行的规划再建,使得乡村格局被改变,村落的特色逐渐丧失,乡村的
<正>2017年,贵州将紧紧扭住精准这条生命线,集中精力、集中火力,确保脱贫攻坚春季攻势取得实实在在战果作为全国农村贫困面最大、贫困人口最多、贫困程度最深的省份,贵州是全
本文根据广西壮族自治区富川瑶族自治县农村土地承包经营权流转情况的调查,系统分析了富川县"集体统一规划、小组协调生产、分户承包管理"、"公司+基地+农户"等主要土地流转