基于深度学习的移动应用图形用户界面组件识别方法研究

来源 :四川大学 | 被引量 : 0次 | 上传用户:tanya_33
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在移动应用GUI(Graphical User Interface,用户图形界面)的开发过程中,界面开发人员需要识别设计原型图中抽象的具有设计意图的组件,并将其转化为准确具体的代码。然而,由于设计者与开发者广泛存在的领域背景知识的差异,开发人员对原型图组件的理解往往存在偏差,导致组件识别错误频出且难以更正,造成最终产品与设计不符,极大的增加了开发成本;不仅如此,在代码自动生成、界面自动化测试等围绕GUI展开的智能化任务中,准确识别设计图中的组件是保证各种后续任务能够顺利完成的重要前提。为了解决这一问题,研究者试图自动识别图形界面的组件,包括组件的自动检测(获取组件位置、大小)和自动分类(获取组件类型)两个方面。目前已有研究采用机器视觉、深度学习等方法,对界面中的组件位置、大小、类型进行自动识别,取得了较好的效果,但仍存在可迁移性差、检测精度低、分类准确率不高等问题。针对以上问题,本文对基于深度学习的移动应用图形用户界面组件识别方法进行了研究和改进,主要的研究工作如下:(1)针对目前GUI组件识别研究可迁移性差,缺少在大规模真实移动应用GUI数据集得到验证的问题,本文总结并归纳了基于设计语义的GUI组件基本类型,克服了现有研究结果在不同的平台难以迁移的问题;同时对包含超过65000个不同数据样本的目前最大的移动应用GUI数据集进行了数据清理工作,筛选出了10656个高质量数据样本,人工补充或修正了超过2000个数据样本的错误标注,克服了目前研究仅面向部分合成样本而没有在真实数据集上得到验证的问题。(2)在组件检测阶段,针对现有GUI组件识别方法中由于特征提取不充分、交并比损失函数涉及不合理导致的组件检测方面的效率低、精度差的问题,采用轻量级的YOLO目标检测网络模型作为模型框架,通过引入通道注意力机制强化了对输入图像浅层边缘细节特征和高层语义特征的提取能力,提升模型检测效率,并通过C-Io U改进的交并比计算方式改进了预测组件定位准确度。实验结果表明:与基于机器视觉的组件边缘检测算法相比,本文方法在组件区域召回分数上提高了21.6个百分点,解决了边缘检测方法对于重合、交叉等复杂组合形式的组件之间难以检测的问题;相比于以往基于深度学习的组件识别方法,本文方法在定位交并比置信度从0.3提高到了0.5的基础上,将组件查全率提高了4.3个百分点,改善了以往方法对于GUI组件检测困难,定位准确度不高的问题。(3)在组件分类阶段,针对现有基于深度学习的组件识别方法训练数据集组件类别不均、上下文特征信息缺乏有效融合、预测阶段正负样本比例失衡导致的组件分类准确率不高的问题,本文首先提出一种面向GUI的数据增强方法,人工生成一些符合GUI设计规则的含有少量稀有组件的数据样本,平衡界面组件类别数量;在特征融合阶段,通过堆叠Bi FPN(Bi-directional feature pyramid network,双向特征金字塔网络)结构将主干网络提取到的不同层级的特征进行递归加权融合,让网络学习不同输入特征的权重;最后,通过自适应的加权正负样本选择策略平衡算法在预测组件分类时的正负样本数量比例。实验结果表明:改进后的算法在预测交并比分数在0.5以上时对于组件的平均分类准确率达到94%,相比于目前用于组件检测的目标检测算法,m AP提高了6.2个百分点以上,显著提升了组件的分类准确率,有效的应用于现代移动应用程序GUI中的组件自动识别任务。
其他文献
随着计算机图形学技术的蓬勃发展,越来越多的虚拟现实产品被运用到军事、航空、航天和娱乐领域,为这些领域的生活生产带来极大的便利。而基于沉浸式投影系统的虚拟现实技术由于其成本低、沉浸感强、空间显示范围广和适用性强等优势,得到了越来越广泛的研究和运用。这类虚拟现实系统一般由投影仪和投影屏幕构成,为了提升虚拟现实场景的沉浸性和真实性,常常采用曲面形式的投影屏幕。目前,基于沉浸式投影系统的虚拟现实技术有着广
近年来,随着通信技术的高速发展和移动终端设备的大量普及,人们越来越依赖移动设备进行工作和生活,移动应用程序也就变得越发重要。对于移动应用程序(Application,App)开发方来说,要想让App在充斥着大量同类产品的应用市场中脱颖而出,就必须使其具备丰富的图形用户界面(Graphical User Interface,GUI)和令人愉悦的用户体验(User Experience,UX)。那么如
深度学习是自动驾驶,人脸识别,生物医学图像处理以及机器人视觉等研究领域的突破性技术。虽然基于深度学习的神经网络模型以及相应的训练算法在许多大型的公开数据集中都有显著的表现,但是其往往都受限于昂贵的硬件设备,而无法应用在类似手机这种小型的设备中。知识蒸馏可以通过以学生网络学习教师网络的方式,使小规模的神经网络也能有着和大规模网络相似的效果,它相对于其他的模型压缩算法适用场景更加广泛。因此,本文重点研
当下,二维人脸识别已广泛应用于生活中,如刷脸支付、考勤管理等,但其存在防伪性差、误识率高等缺点。故人脸识别的研究重心逐渐转向三维人脸识别,其关键基础在于三维人脸模型的采集。其中,基于双目视觉的三维采集由于建模速度快、精度高成为该领域的热点,包含被动测量和主动测量。前者在自然光源下捕获目标图像,通过匹配立体图像中对应的点以恢复三维信息,如何提高立体匹配的精度是其中的关键。然而,被动三维测量难以满足高
近年来随着深度学习、计算机视觉技术的迅速发展,室内智能小车被广泛应用在社会生产生活中的多个领域,并逐渐形成了以激光雷达为主、多种感知设备共同协作的室内感知控制方案。单线激光雷达凭借其结构简单、成本低、精确度高、稳定性好等特点广泛应用于室内机器人感知系统中。单线激光雷达感知虽然可以有效的进行地图构建和定位,但是导航过程中单线激光雷达仅能获取单一平面稀疏激光点云,对非扫描平面障碍物感知不足与非均匀刚体
步态识别作为一种新兴的生物特征识别技术引起了广泛的关注和研究。与传统的生物特征识别技术相比,其难以伪装,具有非接触性、隐蔽性等特点,逐步在安防,医疗等领域中发挥了重要的作用。然而在实际场景中,遮挡或者携带物都会改变行人的行走特征,并且拍摄视角的变化也会改变行人轮廓的形状,从而影响识别结果。本文针对现有的步态识别方法在多个不同视角下的识别率不高问题,使用深度学习技术来展开研究。本文主要工作及创新点如
为解决空域日益拥堵、空中交通流量日益增加等问题,美国联邦航空管理局提出了自由飞行的概念。伴随该概念的提出,空中交通管制问题变得尤为复杂。随着我国民用航空运输事业的蓬勃发展及民航运输需求日益增加,为保证自由飞行条件下飞行器的安全,进行飞行冲突解脱策略的研究显得十分重要。现有飞行冲突解脱方法包括最优控制类冲突解脱方法、概率类冲突解脱方法以及数学规划类冲突解脱方法,这些传统冲突解脱方法存在着效率较低、计
我国目前共有1445种鸟类[1],其中不乏像白鹮、丹顶鹤等濒危物种。由于鸟类动作比较灵活,对鸟类影像资料的收集大多是通过相机进行拍照,这大大限制了鸟类教育宣传、保护和行为研究的工作开展。三维重建技术可以给上述工作提供强有力的帮助,它是指通过一定方式获取物体三维形状,从而可以更加直观的从各个视角对物体进行观察。常采用的三维重建方式包括,CAD建模和激光建模等。但这些方式存在一定的局限性,比如建模软件
随着工业的发展,零件内螺纹的加工精度要求越来越高,部分零件由于具有复杂的装配要求,其螺纹孔不仅分布复杂,甚至经常分布在不同平面内。传统的手动攻丝加工虽然具备较强的灵活性,可以完成复杂分布螺纹孔的加工,但其加工效率低,操作无法离开人力,同时其加工精度无法满足大多数企业的生产需求;而现有的组合钻床虽然效率高,但只能完成同一平面内的孔的内螺纹加工,需要移动工件才能完成复杂孔分布零件的内螺纹加工,而且组合
增材制造技术又称3D打印,该技术自1986年首次商业化至今,已经过去了35年,而其真正的高速增长期是从2012年开始的。笔者认为,该现象主要由两个重要因素所致:一个是具有低成本优势的FDM技术专利到期,另一个则是因为一个称为Rep Rap的由低成本嵌入式板卡驱动的低成本3D打印机开源项目的出现。这两个因素的共同作用使得3D打印技术以以往不可想象的低成本和低门槛进入了大众消费者群体中。而近几年基于L