食品安全突发事件跨媒体信息的语义分析与分类研究

来源 :北京邮电大学 | 被引量 : 5次 | 上传用户:nd963852
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,我国食品安全事件频发,互联网上相关信息迅速增多,其数据形式呈现跨媒体的特性。图像作为该类数据的主要成分,由于其包含语义的丰富性,成为大众获取相关信息的重要来源。虽然传统的语义分析、分类技术在图像的语义理解上取得了一定进展,但对如何更加有效地进行图像量化表达以及图像特征选择,仍然有很多问题亟待解决。在食品安全突发事件语义背景中,相关跨媒体信息拥有特征空间异构、语义空间密切关联的性质,如何利用具备多模态表现形式的跨媒体信息,挖掘不同模态数据问的潜在语义关联,以及在不同模态数据间进行知识迁移,从而帮助进行图像的语义理解,这对语义分析与分类任务提出了新的挑战。针对图像表达及特征选择、潜在语义关联关系挖掘、异构数据源间的知识迁移等问题,本文从图像的量化表达、语义标注和语义分类等三个方面,对食品安全突发事件跨媒体信息的语义分析与分类技术进行了研究。论文的主要贡献和创新点如下:(1)本文提出了一种距离优化的特征压缩降维算法(DO-LLE),解决了由于特征点分布不均衡造成的近邻点参数难以确定和降维效果不稳定的问题。针对视觉词汇本的大小难以确定的问题,本文提出了一种自适应特征聚类算法(AC),该算法根据最大最小距离规则和DBI指标对特征集合进行迭代计算,自适应的生成最优聚类中心。将DO-LLE算法和AC算法在LPS数据集(Lazebnik Schmid and Ponce, LPS)上通过图像分类实验进行验证。DO-LLE算法的平均分类准确率为81.9%,比传统的LLE算法高出3.3%。AC算法可以自适应的确定特征聚类数(聚类数为298)其平均分类准确率为82%,比人工设定聚类数为100、200、300、400的平均分类准确率依次高出10.7%、5.4%、0.3%、1.1%。实验结果表明,DO-LLE算法和AC算法可以有效地提高图像语义分类准确率。(2)为了解决对图像进行有效量化表达的问题,本文提出了一种基于视觉词袋模型的健壮的图像表达方法(BOVW-RIR)。为了增强图像底层特征的表征力,将图像加速稳健特征和多分辨率直方图矩特征进行了融合,生成了一种具有图像局部信息和结构信息的底层复合特征。依次对特征进行压缩降维和聚类,按照特征聚类结果构建视觉词汇本,并用该视觉词汇本对图像进行表达。BOVW-RIR方法在OT数据集(Oliva and Torralba, OT)、FP数据集(Fei-fei and Perona, FP)(?)口LPS数据集上依次取得了89.1%,83.9%,82%的平均分类准确率,在20类食品安全图像数据集上取得了70%的平均分类准确率。将BOVW-RIR方法与目前三种著名的图像表达方法(Fei-fei, Bosch, Lazebnik)进行了实验比较,BOVW-RIR方法在OT、FP和LPS数据集上的分类准确率比三种比较方法中的最优者分别高出了4.4%,6.6%和7.3%,这表明BOVW-RIR方法能更加有效地对图像进行量化表达。(3)本文提出了一种基于潜在语义主题加权融合的图像语义标注模型(LSTWF-ISA),该模型对训练数据的语义标注词和图像视觉词汇进行了潜在语义主题建模,得到了文本模态数据和视觉模态数据的潜在语义主题分布。利用计算视觉词汇分布的信息熵所得出的权重参数,对文本模态数据和视觉模态数据的潜在语义主题分布进行加权融合,得到融合语义主题分布,利用融合语义主题分布构建了LSTWF-ISA图像语义标注模型。本文提出的LSTWF-ISA模型在Core15K数据集的49个最优标注词子集上的平均F度量值为0.71,在常用的263个标注词子集上的平均F度量值为0.22,在20类食品安全事件的图像标注数据集上的平均F度量值为0.36。将LSTWF-ISA模型与四种著名的图像语义标注模型(TM,CMRM,CRM, PLSA-WORDS)进行实验比较,并对结果进行符号秩检验。LSTWF-ISA模型在Core15K数据集的49个最优标注词子集和常用的263个标注词子集j二的平均F度量值依次比四种比较方法中的最优者提高了11%和29%,这表明LSTWF-ISA模型能够通过利用文本模态和视觉模态的潜在语义关联提升图像语义标注效果。(4)本文给出了文本-图像共现数据的形式化定义,描述了基于事件约束的文本-图像伴随文档的特性。提出了一一种文本-图像特征映射算法(TIFM),基于文本-图像共现数据从文本特征空间向图像特征空间进行特征映射。TIFM算法在包含20个类别的食品安全数据集上所计算出的图像特征分布与基准图像特征分布的平均欧氏距离为0.024、平均余弦相似度为0.84、平均K-L分歧值为0.075,这表明TIFM算法能够有效地将文本特征分布映射为图像特征分布。(5)为了解决利用文本数据帮助进行图像语义分类的问题,本文提出了一种基于特征迁移的图像语义分类模型(FT-ISC)。针对文本特征的海量性和稀疏性导致不易计算的问题,本文提出了一种基于信息增益的文本语义特征选择方法(IGTSFS)。该方法对文本数据进行潜在语义主题建模,计算出各潜在语义主题的信息增益,得出显著文本语义主题特征。本文提出的FT-ISC模型在食品安全数据集上取得了76%的平均分类准确率,在“小龙虾”食品安全语义类别上取得了86%的分类准确率。将FT-ISC模型在食品安全数据集上与贝叶斯分类模型和标记查询分类模型进行比较,实验结果表明,FT-ISC模型在分类准确率上比贝叶斯分类模型和标记查询分类模型依次高出8%和5%。(6)本文提出了一种基于特征加权的图像语义分类方法(FW-ISC),该方法通过将筛选式的图像特征加权机制(FFW)与支持向量机结合,实现了图像语义分类。在特征加权过程中,针对特征分布不均衡以及特征与语义类别之间的紧密度难以度量的问题,提出一种基于条件互信息的特征差异性度量方法(CMIFDM),通过迭代计算得出某个语义类别下特征的权重值。通过设计特征加权核函数,将FFW特征加权机制与支持向量机结合,在分类器训练过程中可以利用特征加权的结果。FW-ISC方法在LPS数据集上取得了87%的平均分类准确率,在食品安全图像数据集上取得了75%的平均分类准确率。将FW-ISC方法与传统的支持向量机分类器进行了比较,并对实验结果进行了符号秩检验。实验结果表明,FW-ISC方法在LPS数据集和食品安全图像数据集上的分类准确率比传统的支持向量机分类方法依次高出5%和8%,这表明FW-ISC方法可以有效地提高图像语义分类准确率。
其他文献
档案工作是各项管理工作的重要组成部分,是人类活动的真实记录,是人们认识和把握客观规律的重要依据。
<正>糖尿病是一种常见的代谢性疾病,是由于人体胰岛素绝对或相对缺乏,靶细胞对胰岛素敏感性降低,胰岛素及受体缺陷或受体后反应异常等导致的以高血糖为基本生化特点的糖、蛋
酒店室内空间设计课程为一门具有较强实践性的专业设计课程,其涉及的领域较广,教学难度较大。本文以酒店室内空间设计课程教学方法为主题,结合笔者自身的工作经验,就教学方法的创
新媒体时代的到来,为视觉传达设计教育提供了更多的发展机遇,在这种语境背景下,视觉传达教育自身也通过不断的升级与改革,通过创新教育,进一步提高了对人才的培养能力,使其能
本文从思维方式,地理环境和价值观方面,分析了中西方文化差异。
随着改革开放的不断发展,各民族文化在不断融合衍伸发展,不仅文化之间互相融合,文化也与其他方面相互融合。壮族文化元素作为中国民族的传统元素之一,与景观雕塑的融合、演变
葫芦岛国际酒店作为葫芦岛市知名酒店,其凭借着自身优秀的硬件配置,地理区位优势等在近年来发展迅速。但是,在发展过程中也出现了一些问题。本文针对葫芦岛国际酒店在营运管理过
自然光具有无与伦比的魅力,人们的生活需要自然光。当今时代,人们追求更高的精神享受,因此自然采光在满足自身功能性的基础前提下,应当充分发挥其具有艺术性的内在潜力。人们
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
回 回 产卜爹仇贱回——回 日E回。”。回祖 一回“。回干 肉果幻中 N_。NH lP7-ewwe--一”$ MN。W;- __._——————》 砧叫]们羽 制作:陈恬’#陈川个美食 Back to yield
会议