面向数学图像检测模型的研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:tsmljgh
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着人工智能的飞速发展,为专注于对计算机推理能力的挖掘,微软推出数学图表类数据集Figure QA,旨在用简单的图形图表组合让计算机完成数学推理任务。而对于计算机而言,要完成对图像信息的整合并结合文字信息进行推理,首先需要完成的就是对图片信息的提取,也就是对图片进行目标检测。因此本文的主要研究内容为图像问答过程中所涉及到的的目标检测过程。对于数学图表类图像而言,与主流目标检测模型中通常采用的真实场景中的照片不同,一张折线图中,每一个包含折线目标的标注框里,折线目标本身所占的像素值远小于背景空白部分所占的像素值。同时,在对真实场景图片的标注中,一个目标只需使用一个标注框,但对于折线图的目标检测来说,要为后续问答任务提供足够多的图像信息就需要用多个边界框尽可能地使折线全部包含在其中。基于以上的与现有目标检测所适用的图片所不同的特点,本文以数学图表类数据集Figure QA中的折线图为主要研究对象,研究对其进行目标检测的过程。本文首先针对折线图在现有模型中检测准确率偏低的原因进行分析。现有的目标检测模型中在对候选的样本进行筛选时,通常使用计算候选框与真实框交并比的方式来对标注框中是否有目标进行判定。使用这种方式对折线图中的候选框进行检测时,就可能会出现即使候选框中存在折线目标,但却因为位于两个真实框位置之间导致与左右两个真实框的重叠部分都没有达到阈值而被判作是没有目标的样本的情况,从而导致在样本的筛选过程出现偏差。因此,在此分析的基础上,本文针对此类数学图表类数据集中的折线图,设计了在筛选样本时将边界框转为点来处理的多种方法,根据点与点之间的位置关系来判定候选区域是否有目标的方式,并对改进方法进行实验验证,分析实验结果。同时,本文分析了在现有的目标检测模型预测结果的评判标准下,通常以标注的真实框为基准,预测框与真实框越接近,证明预测结果越正确。但对于折线图来说,标注框只是多种标注方案中的其中一种。因此使用这种方法对折线图的预测结果进行评判时,同样会出现预测框位于折线上,却因为与标注框重叠程度没有达到阈值而被认为是预测错误。因此,本文设计了以折线本身为基准通过判断候选框与折线位置关系的评价标准来对预测结果进行评判的方法。弱化数据集给出的标注框在评价标准中的比重,引入新的评价标准,对以折线本身为基准,来对预测框进行评价,并对设计的评判标准进行实验验证。
其他文献
矩阵积和式是一种常用的矩阵不变量,在组合计数、统计检验、无线通讯、统计物理、分子化学等领域有重要的应用。积和式的定义与行列式相似,但是它的计算复杂性远远高于行列式。英国理论计算机科学家Valiant在1979年证明积和式计算是组合计数中的#P完全问题,即其难度不低于组合优化中的NP完全问题。迄今为止,对一般矩阵最为有效的积和式精确算法是Ryser基于容斥原理所建立,其计算复杂性为O(n2n-1)。
随着互联网时代的到来与发展,为大数据、云计算、人工智能等新兴技术提供了肥沃的土壤,同时也为各行各业带来了新的变革与推动。教育作为民族振兴、社会进步的基石,一直是我国优先、重点发展的行业。长期以来,我国教育面临的突出矛盾是人们对高质量个性化教育服务的迫切需求与优质教育资源供给的严重不足,针对教育资源供给侧的创新和个性化教育服务新模式的探索是当前教育改革与发展所面临的重大课题。本文搭建支持矩阵自动推理
语义匹配技术备受关注,成为了当前自然语言处理技术应用领域热点话题之一,在问答系统以及信息检索等领域拥有着广泛的应用场景。目前,最热门的语义匹配模型为基于BERT的微调模型,但是大多数基于BERT模型的语义匹配技术由于采用统一注意力机制,对于句式复杂的文本语义信息抽取不够充分,导致对句子语义的理解存在偏差;同时,BERT模型规模庞大,计算量着实惊人,仅仅单个样本计算一次的开销动辄上百毫秒,在严格的延
随着科技水平的进步,视频数据在人们的日常生活中占据着越来越重要的地位。视频中存在着大量的文字信息,对其进行提取有助于视频内容的审核以及视频内容归纳分类。而视频文字检测识别技术能很好的满足对于大量视频内容提取与审核等方面的需求。相比于人工,借助视频文字检测识别技术进行视频内容提取与审核等工作,能够大幅提高效率并降低人力成本。本文基于深度学习技术,对视频文字检测算法和视频文字识别算法进行了研究,设计实
对于医学图像分割任务来说,传统的手工方法依托于医生的经验知识,不仅耗时耗力而且分割精度也没有保证。而随着计算机技术的发展,依托于深度学习的自动化分割方法在各个领域显示出了自己独特的优势,于是有了将深度学习与医学图像相结合来实现自动化医学图像分割的技术。在此背景之下,本文以深度学习为工具探索生成式对抗网络在脑肿瘤分割中的应用,主要工作如下:(1)从多尺度特征的角度出发实现了一个基于并行多尺度的生成对
在当前大数据时代,大量的医学影像没有得到有效利用。而在医疗、教育以及科研等领域却亟需大量经过标注的数据,因此需要一种技术对医学影像进行标注。然而使用手动标注的方法耗时耗力且需要医学专业人士才能完成,人工智能技术的兴起为医学影像的自动标注带来了福音。传统的自动标注方法仅仅使用了图像单一模态的数据,与图像数据紧密相关的诊断报告却未得到使用。因此本文提出了一种利用跨模态方法进行医学影像自动标注的技术,重
随着医学诊疗技术的发展以及胚胎发育理论体系的完善,体外受精-胚胎移植技术在经历了四代的更迭后已然成为不孕不育等相关疾病的首选治疗方案。其中,胚胎植入前的形态学诊断是成功移植的关键,原核期胚胎特征作为诊断的首要依据更是有着严格的定义。本文通过计算机视觉技术实现胚胎特征识别算法,相较于传统识别方案,算法能够自动且有效地分割胚胎主体区域并在原核期胚胎首要特征识别中获得接近医师的精度水平。最终给用户提供一
近年来,随着计算机视觉领域技术的不断突破与创新,在图像信息利用越来越多元化的背景下,视频预测成为当下深度学习研究的一个热点方向。视频预测技术以给出的图像信息为基础,通过构建一个可以精准建模视频内容和动态变化的内部表征模型预测未来视频帧,并应用于机器人、自动驾驶汽车和无人机提前决策等多个场景。针对于当前大多数视频预测技术对于时间信息提取的不足,导致连续帧出现的动作伪影以及动作模糊的难点,本文基于现实
近来年,随着人工智能技术的落地应用,人们的学习和生活方式发生了极大的变化。在教育行业,自然语言理解、知识图谱和知识推理等技术更是对其产生了深远的影响,基于知识图谱的推理自然受到了越来越多的关注和研究。然而在推理过程中,需要考虑不同的策略。本文正是基于上述背景,研究和实现了图推理中的组合分支技术,并将其应用到了初等数学求解中,主要包括如下内容:1、研究和实现了组合分支技术中的分层策略。本文最终划分了
面对信息爆炸的时代,用于信息搜索的智能问答技术发展迅速。用户通过问答系统,从海量信息中检索出准确信息。传统问答算法利用浅层语义,获得简单问题的答案,但无法获得更深的语义层次,难以给出更加准确的信息。以知识图谱为基础的问答系统,结合知识图谱中的语义信息和知识结构,能够检索出更加准确的答案。但是,目前的研究多是在一个理想的状态下进行研究的,即用户所输入的问题,能够在知识图谱中通过推理全部得到答案。在实