基于图像描述的喉镜图像报告生成方法研究

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:zzzj1019
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
医学图像报告生成旨在为一张医学图像自动生成一段描述其内容的自然语言,这种技术在医学图像理解和计算机辅助诊断等方面有着巨大的应用价值。不同于医学图像分类和标注等粗粒度的医学图像理解任务,为医学图像生成报告需要将图像转化为连续的文本,这首先就涉及到图像特征的提取,提取到高质量的图像特征是该任务成功的前提,其次涉及到文本生成,得到图像特征后,要将图像特征转化为通顺连贯并且满足语法约束的医学报告。因此,该任务涉及到了计算机视觉、自然语言处理以及医学三个领域,所以,对医学图像报告生成技术的研究不仅有利于推动图像和文本处理技术的发展,而且还有利于推动智能医疗领域的发展。本文对近几年来国内外医学图像报告生成技术的发展进行了调研。研究发现,当前大多数方法采用卷积神经网络(Convolutional Neural Network,CNN)作为编码器提取医学图像特征,循环神经网络(Recurrent Neural Network,RNN)及其变种长短时记忆网络(Long Short Term Memory,LSTM)和门控递归单元(Gated Recurrent Unit,GRU)作为解码器生成医学报告。虽然这种端到端的编码解码结构已经取得了一定的成果,但是仍然存在着一些问题。包括:1)文本对图像特征提取过程的约束还不够深入;2)对图像特征的利用还不够充分;3)对注意力机制和图文融合的建模还不够完善。本文主要针对这三个问题展开研究,具体内容如下:1)提出了一个多通道图文互相约束的喉镜报告生成模型。该模型通过在基础CNN-GRU编码解码结构中加入两个额外的通道来增强文本对图像特征提取过程的约束。该模型一共包含三个通道,第一个通道为基础的图像到文本的编码解码结构;第二个通道为正向文本到正向文本的编码解码结构;第三个通道为反向文本到正向文本的编码解码结构。通过后两个通道对文本到文本进行建模,将更多的文本信息引入模型,从而加强文本对图像特征提取过程的约束。在喉镜图像数据集上的结果表明,所提模型的性能优于其他对比模型,可视化结果也表明,相对于对比模型提取到的图像特征,本模型提取到的图像特征与文本更接近。2)提出了一个多特征融合指导解码的喉镜报告生成模型。该模型采用基础CNN-GRU编码解码结构,首先利用CNN提取图像的卷积特征和全连接特征,然后使用GRU学习图像和文本两个模态间的联系,在最后的文本生成阶段,除了使用GRU输出的信息以外,我们还将图像的全连接特征和卷积特征进行融合作为额外的补充信息输入文本生成模块对文本生成进行指导。在喉镜图像数据集上的结果表明,所提模型的性能优于其他对比模型,可视化结果也表明本模型中的融合特征在文本的生成阶段有明显的特征补充作用。3)提出了一个双GRU解码的喉镜报告生成模型。该模型采用基础的CNN-GRU编码解码结构,但在解码过程中,使用Attention GRU和Language GRU分别对注意力机制和图文融合进行建模,两个GRU同时接收图像特征和文本信息,各自记忆自己需要的信息,从而避免了单个GRU同时对注意力机制和图文融合这两个任务建模存在冲突的问题。在喉镜图像数据集上的结果表明,所提模型的性能优于其他对比模型,可视化结果也表明本模型中的注意力机制和图文融合较基础对比算法有明显改善。
其他文献
配位聚合物CPs(coordination polymers)作为一种新型功能材料在磁性、质子传导、荧光和催化等方面都有巨大的应用潜力。配位聚合物大至可以分为三类:(1)有机羧酸类,(2)有机膦酸类,(3)含氮杂环类。因有机膦酸类配体具有多种配位模式,可以和金属离子螯合得到不同结构的CPs材料,且有机膦酸类CPs材料具有很高的稳定性。因而设计并合成新型有机膦酸类CPs材料,并对其结构与性质进行了研
从20世纪60年代到卢旺达20世纪90年代爆发内战进入种族灭绝时期,伴随着国家结构调整计划(SAP)出现,坦桑尼亚和卢旺达的对外投资及工业发展经历了包括政策改革、进口替代以及去工业化等在内的多个阶段。与坦桑尼亚相比,这两个国家当前的工业发展阶段(尽管两国之间不是统一的)更有利于卢旺达进行对外投资。基于这种观点,本文旨在探索对外投资政策在工业领域的效果和表现。本文主要关注卢旺达在吸引对外投资方面比坦
以YBCO为代表的第二代涂层超导材料由于其具有更高的不可逆场和较强的载流能力,在电磁领域拥有广泛的应用场景。Ni-W合金在抗氧化性能以及与超导层的晶格匹配方面优势明显,是制备YBCO超导线材普遍使用的的织构金属基板之一。近年来研究发现,Ag元素可以调控低W(≤5at.%W)含量的Ni-W合金基带的晶粒形貌,获得的细长化晶粒对提高超导材料的电流传输能力有着显著的提升。Ag如能在高W合金中达到同样的优
随着时代的发展,网络已经成为了人们日常生活中不可或缺的一部分。我们利用传统的以太网解决了生活中衣食住行等很多需求,但是在一部分对于实时性要求比较高的工业领域中,传统以太网的表现并不优秀。传统以太网的设计是基于事件触发(Event trigger)的网络结构,这种类型的网络一旦出现拥塞,将无法保证数据传输的可靠性。在工业领域特别是航空领域中需要实时性更高的网络,例如基于时间触发(Time trigg
在“内涵式发展”进程中,高校内部的组织原则、组织方式和利益分配形式等,皆出现重大调整。诸多改变能否坚守公平、正义原则,确保公民的受教育权不受损害?因此,亟需开展组织化风险预判和防治研究。本文选取高校内的各类正式与非正式组织,运用治理理论、组织理论、公平理论等理论方法,从知识生产、资源配置、权力关系等视角下开展研究。探析高校内的组织原则、组织方式等出现的调整,给高校带来的组织化风险,并结合原因分析,
自20世纪80年代以来,在工业化和城镇化进程的推动下,大量农村剩余劳动力流入城市,成为了新兴农民工群体。农民工在城市社会中工作与居住,与城市居民沟通与互动,不断适应城市
供应链金融对实体经济有着强大的赋能作用,P2P是金融创新的一部分,P2P平台运用互联网先天优势与供应链金融结合,为中小微企业提供便捷和方便的融资服务,优化中小微企业生存环境,实质上促进实体经济。本文以P2P平台供应链金融项目为研究对象,结合运用项目风险管理理论,按照风险识别、风险评估、风险应对和风险控制的步骤,对P2P平台供应链金融项目的风险管理进行研究。在本文研究过程中,运用文献研究法分析和整理
网络产品遭受的攻击变幻莫测,随之产生多种形式的漏洞,且漏洞数量逐年增加,通过舆情对产品信息安全质量进行评价,及时发现产品存在的安全问题对网络空间安全、用户信息财产安全至关重要。针对市场上网络产品种类众多、安全质量评论信息海量且碎片化、信息之间缺少关联性等挑战,开展了面向产品信息安全评估的知识图谱研究,整合海量网络产品安全信息,进行高效地分析、挖掘,获取有用的安全信息。主要工作如下:(1)提出了一种
等几何分析是利用CAD(Computer Aided Design,计算机辅助设计)模型的样条表示来进行物理仿真模拟的新方法。该方法为CAD和CAE(Computer Aided Engineering,计算机辅助工程)的
公共自行车系统(Public Bike System,PBS)是城市交通的重要组成部分,日益增长的用户需求给PBS维护人员带来不小的挑战。研究PBS供需不平衡问题,对城市治理、提升城市服务质量具有实际意义。目前的公共自行车需求预测多采用传统的神经网络方法,很难捕获数据中的时空相关性,预测结果难以达到精度要求;行程规划在移动计算中可用于为用户个体导航,但其算法研究较少,且在疏导人流、提高系统持续服务