基于深度学习的医疗票据检测与识别

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:mywindjs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近几年,随着深度学习的快速发展,自然场景下的文本识别取得了极大的进展,如车牌识别。然而,自然场景中的票据文本(尤其是医疗票据)相比于其他文本存在文本密集、印刷错位等问题,因此票据文本识别一直是计算机视觉领域的研究难点。基于上述问题,本文提出了一套完整的医疗票据文本识别解决方案,本套方案主要包括文本检测和文本识别两部分。文本检测任务中,由于医疗票据文本密集且存在大量文本弯曲现象,本文采用以渐进式尺度扩展网络(PSENet)为基础的方式展开文本检测研究。另外,针对医疗票据中存在多类别文本(包含印刷、机打等文本)的特性,本文引用前人基于PSENet提出的多分类改进方案,该方案在检测文本的同时也会分类文本实例,为后续处理提供便捷。此外,本文针对PSENet还做出了一系列改进:(1)将特征提取骨干网络由Res Net改为轻量级网络Mobile Net V2,大大提升了模型运算效率;(2)通过形态学上的闭运算对检测中出现的断裂文本进行修复。最终在将网络模型大小缩小14倍的同时将检测结果的F1分数从76.3%提升至85.8%。文本识别任务中,本文采用了目前比较流行的CRNN+CTC模型。与其他自然场景中的文本不同,医疗票据中的文本包含大量固定字段,如印刷模板中的明细项。因此,本文采用了无词典转录与有词典转录相结合的转录方案输出最终识别结果,最终将票据中的字段识别准确率从89.8%提升至91.2%。最后,本文在标注的中文医疗票据数据集上训练并验证了整套方案的可行性。同时,还将该方案与百度和旷世科技的商用方案进行了比较测试,证明了本文方案在医疗票据文本识别中具有一定的优势。
其他文献
伴随企业数字化转型与经济数字化发展,交易型数据库管理系统以其高实时响应性能与事务处理安全可靠特性,已越来越成为国计民生行业中数据基础设施的重要组成部分。其运行时若出现不稳定表现或突发崩溃对企业或民生基础设施将产生巨大损失与严重后果。针对此问题,设计实现了一套测试工具,能对交易型数据库的运行时稳定性性能进行测试。测试工具着重增强了干扰场景。针对数据库运行时会受同服务器服务进程物理硬件资源占用的干扰,
学位
现如今,随着各行各业信息化建设的加快和产业规模的扩大,人们为了更加精准高效地获取更多的前沿信息以开拓视野增加认知,都会使用智能问答系统进行查询。智能问答系统是一种基于人工智能的、比传统搜索引擎更为强大和高效的信息检索系统,也是用户使用自然语言和计算机交互的一种重要形式。一个良好的智能问答系统需要丰富的底层语料库参与以便能提供推理决策支持,所以如何从语料库中组织出决策所需的相关信息以帮助系统更好的完
学位
随着大数据时代的到来,使用数据库对海量数据进行管理已经成为多数应用场景中的优先选择,数据存储的安全性也更加重要。数据库加密存储技术的研究和应用极大程度上解决了数据安全的问题,检测数据库的加密功能也成为了评估数据库安全等级的标准要求之一。为了检测数据库的安全等级,需要开发一个数据库加密算法识别工具,识别被测数据库加密接口提供的密码算法,检测数据库产品提供的加密功能是否达到了安全标准的要求。结合加密算
学位
随着云技术的发展,对云上的数据进行分析的需求正在不断提升。在分析型应用中连接查询是最复杂和代价高昂的操作,其往往涉及较多的数据,会带来繁重的磁盘输入输出(I/O),在计算存储分离场景中还会带来繁重的网络I/O,从而降低哈希连接的执行效率。因此,为计算存储分离数据库提供优化的哈希连接功能具有重要意义。从哈希连接的优化入手,面向计算层,提出了采用哈希连接和索引灵活选择的优化方法CEHJ(Calcula
学位
为缓解“停车难”问题,全国各式大型停车场拔地而起。由于停车规模越来越大,而停车场的数字化、智能化的水平低,用户难以快速找到合适的车位,浪费大量时间,降低停车场的使用效率。因此,如何提高停车场的车位使用率和智能化水平、提升用户的泊车体验是迫切需要解决的问题。针对以上问题,设计了基于蓝牙定位的室内停车场车位推荐与导航系统。对武汉的大型室内停车场进行实地考察,了解其建筑结构特点,阐明系统设计的必要性。从
学位
随着互联网技术的蓬勃发展,人们积极地在线上分享自己对于社会事件、公众人物和消费服务等方面的看法和态度。通过分析挖掘来自各个领域的文本评论,情感分析有利于掌握舆情的走向,了解媒体和大众对于热点事件的看法,帮助用户了解商品的口碑以及利于企业商家改进产品和服务。因此,情感分析成为当下的研究热点,具有巨大的价值。为了细粒度地分析用户评论,情感分析任务从简单地判断文本的情感极性逐渐演变成抽取文本的情绪三元组
学位
各大公司接收的电子招聘简历和金融机构发布的电子公告中包含着海量的人员简历信息,这些信息以半结构化或非结构化的形式呈现。简历事件提取能够将简历文本中包含的事件信息提取出来,并以结构化的方式存储,进而挖掘人员之间的复杂关系,构建人物关系图谱,对于人才库的构建、金融机构的投资、决策和发展具有重要意义。针对简历文本存在的特殊问题,将简历事件提取分为三个阶段:事件类型识别、事件元素提取和事件分离。提出基于t
学位
视频会议系统作为人们工作和生活中的一种重要沟通方式,在教育机构、企业单位、政府机关等场合都有着广泛的应用。传统的线上视频会议将所有参会者的视频流集成在一个扁平化的窗口,这种方式缺乏类似真实线下会议的多维体验,参会者之间的互动性和协作性大大减少,注意力容易涣散,也缺少一定的沉浸感和参与感。因此,对三维场景下虚拟会议室系统的视频场景融合进行研究,为视频会议提供三维解决方案,将具有很重要的研究意义。针对
学位
随着城市化进程的进一步发展,建筑结构在不断的发生变化,室内空间增大,使得人们身处其中时经常会存在位置困扰。传统的室内导航工具依靠射频信号进行虚拟地图导航,由于信号的稳定性问题定位结果经常发生波动,并且虚拟地图在实际使用时不如实景地图直观,因此对用户导航体验存在影响。如何提高室内导航的定位效果和导航体验是迫切需要解决的问题。针对以上问题,提出融合蓝牙无线与视觉定位的室内AR导航方案。对室内结构特征进
学位
随着互联网技术的不断进步和发展,生物特征在身份认证领域开始受到关注。相较于传统的身份认证方式,使用生物特征进行身份认证极其方便且难以被伪造。目前生物特征识别主要有生物特征和生物行为识别,其中手写签名作为一种生物行为特征,是每个人在长时间书写过程中训练出的单独的书写习惯的体现。对于同一用户,签名过程与形态稳定,而对于不同用户,其签名之间差异度较大,因此研究在线手写签名认证算法并实现一个签名实现系统具
学位