数学试卷版面切割算法的研究及实现

来源 :电子科技大学 | 被引量 : 3次 | 上传用户:JavaProDev
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
人工智能技术应用于教育行业已成为一种趋势,智能教育的深度发展离不开OCR识别技术。文档图像的版面分割作为OCR识别系统中必不可少的预处理环节被广泛地应用于文档数字化、学生作业批阅等场景,因此版面分割技术的研究具有重要的意义和实用价值。然而适用于所有版面的版面分割算法是不存在的,每个领域的版面都有自己的特征。所以,本文以数学试卷为研究对象,旨在提出一个稳定可行的数学试卷版面分割方法。主要研究内容如下:对于数学试卷复杂的版面结构,本文提出一种把文档组件自底向上聚类与最大空白矩形和关键信息识别的自顶向下分割相结合的混合策略版面分割算法。首先,使用Faster R--CNN检测文档图像中的文档组件(文本行、题目配图、选题括号),同时将除题目配图之外的文档组件聚类为完整文本行,再继续聚类题目配图和文本行以获取排版栏区域;然后,在排版栏内使用最大空白矩形算法检测分隔线,并根据分隔线的Y轴关系分割出更加精准的排版栏区域;接着,对每个排版栏内的文本行从上至下依次标记属性,并根据文本行属性分割出题目文字区域。最后,依据题目配图与题目文字区域的位置关系将每个配图匹配到相应的题目文字区域中。对于混合数学公式的中英文复杂文本图像难识别的现状,本文提出一种基于结构公式分析的细粒度版面分割算法。首先,使用改进的Faster R--CNN分割细粒度版面中的数学公式结构部分;然后,标记余下区域内每个字符的类别(中文字符、非中文字符);最后,以公式结构部分为中心向两侧扩展非中文字符以分割完整数学公式,分割出的两部分区域由两个独立的识别引擎进行识别。基于上述方法设计和实现了一个文档图像分割系统,系统最后在100张数学试卷的测试数据上进行了详细的实验,结果表明本文所提出的粗粒度版面分割方法和细粒度版面分割方法能准确高效地从数学试卷中分割题目区域与结构公式区域,为以后的进一步研究奠定了坚实的基础。
其他文献
第一部分先天性颈椎融合畸形的临床特征及遗传学分析[研究背景]先天性颈椎融合畸形又称Klippel-Feil综合征(Klippel-Feil Syndrome,KFS),是一组以颈椎形成及分节障碍为特征的
近年来,随着移动通信技术的发展与普及,互联网人口得以不断攀升。互联网企业推出了花样繁多的社交软件,巨大流量涌入各大社交平台的同时,不少别有用心的用户为了自身利益—一金钱、名誉、流量等,开始在社交媒体上发布并传播谣言,这对社会的和谐造成了严重的负面影响。面对社交网络中每天数以万计的信息,利用人工进行过滤与筛选显然并不现实。因此如何利用计算机自动有效地检测到社交媒体中的谣言信息,并及时加以阻止已经成为
一、细菌耐药监测的方法常规药敏试验特殊耐药机制的检测耐药流行病学分析抗生素敏感性试验概述目的检测细菌的敏感性,指导临床用药? 检测细菌的耐药性,预测临床结果?
会议
社交网络的发展也带来了谣言信息的泛滥,又因人工辟谣的缺陷,自动化地谣言鉴别方法对公共安全、舆情监控极为重要。现有的相关研究方法中,基于特征工程的传统机器学习模型对
3月19日晚,夜幕降临后的江北区观音桥商圈人头攒动,下班后的张妍和朋友坐在北仓文创街区的一家料理餐厅里相谈甚欢。而在新世纪百货世纪新都商场一楼的一家高端化妆品专柜里,
原始宗教(古代宗教)泛指崇拜自然、神灵以及鬼魂的宗教,之所以称之为"古",是因为它比当今盛行于中外的佛教、道教以及基督教更早出现的缘故。在中外很多自然、人文景观中,都
上市公司财务报告作为公开市场交易的商业语言,其真实性直接影响到交易各方的实际利益。如何更加有效的识别上市公司财务舞弊风险,成为投资者、监管机构、国家都迫在眉睫的问
本报告基于作者在第十四届中国(山东)国际农业机械展览会口译实践所撰写。本次活动于2019年2月21日至28日举行,由山东省人民政府、中国机械工业联合会主办。在本次活动中,作
"德成生翼"课程是"传统文化+素质教育"的实践探索。本课程以人为本,培养和发展小学生核心素质,改善教学评价的方式和方法,改善教育生态,变"应试教育"为素质教育,发展学生核心
我国的著作权集体管理相关体制自建立到现在,已历经数载,在这长期不断修订完善的历史进程中,著作权集体管理组织的机构运营模式、会员作品的委托代管以及有关作品收支转付费率准则的拟定等制度方面已经产生了许多问题,由垄断模式所带来的各种弊端也正在逐渐显现出来。至于我国著作权集体管理组织以后究竟会向哪个方向继续发展完善,是会彻底改变现在的垄断模式而采取竞争模式,还是会长期继续延用现有的垄断模式,学者们对此也是