【摘 要】
:
终端用户编程获得了广泛关注,电子表格无疑是终端用户编程中最流行的编程范式之一。电子表格通常被用来存储、计算和分析用户数据,帮助用户进行数据计算和决策计划。由于电子表格中可能存在大量的数据,其组织方式也多种多样,因此其中可能潜藏着各种类型的缺陷。近年来,多家金融投资公司因为电子表格中潜藏的错误,造成了巨大的经济损失。利用自动化技术帮助终端用户检测电子表格是否存在错误,尤为重要。其中,如何自动化检测与
论文部分内容阅读
终端用户编程获得了广泛关注,电子表格无疑是终端用户编程中最流行的编程范式之一。电子表格通常被用来存储、计算和分析用户数据,帮助用户进行数据计算和决策计划。由于电子表格中可能存在大量的数据,其组织方式也多种多样,因此其中可能潜藏着各种类型的缺陷。近年来,多家金融投资公司因为电子表格中潜藏的错误,造成了巨大的经济损失。利用自动化技术帮助终端用户检测电子表格是否存在错误,尤为重要。其中,如何自动化检测与公式相关的电子表格缺陷得到了最多的关注。近二十年来,研究者们提出了各种各样的方法来检测公式缺陷。目前检测效果较好的主流方法可以依据它们的技术思路分成两类:基于规则匹配和基于聚类/学习算法的缺陷检测技术。前者通常能够依据预先设计的精准规则,以较高的准确率检测到特定类型的单元格缺陷,但相对而言检测的召回率不高;而后者能够根据公式特征和单元格的布局特征对单元格进行聚类,大幅提高检测的召回率,但由于电子表格本身的复杂性,后者对公式的结构和特征提取不够准确,导致最终的检测精度不高。本文基于已有工作CUSTODES提出了一个新技术WARDER。CUSTODES具有自适应性的学习能力,可以进行跨表格、跨布局风格的学习,但同时它存在将不相关的单元格吸纳进单元格类中的不足之处。通过对单元格类的构建过程进行自下而上的有效性检验和优化,WARDER能够足够精准地过滤掉和单元格类无关的单元格或不符合要求的整个单元格类,最终提升单元格聚类与缺陷检测的效果。综上所述,本文的主要贡献有如下三点:1.提出了WARDER,一种电子表格的单元格聚类与缺陷检测优化技术。WARDER针对单元格自身、单元格之间关系和整个单元格类的有效性属性进行检验,提升CUSTODES的单元格聚类效果,进而提升缺陷检测的效果;2.使用一个被相关工作广泛应用的电子表格基准测试集(采样自EUSES数据集)和一个大规模的电子表格语料库VEnron2,对WARDER进行充分的实验评估和案例研究,也对比了主流的其它电子表格缺陷检测技术,验证了WARDER在提升聚类和检测精度方面的优势;3.实现了两个工具:一个Excel插件EGuard,允许终端用户在Excel软件中查看WARDER对当前打开的工作表的检测结果和执行信息,帮助终端用户迅速检查和修复工具报告出的缺陷;另一个可视化集成工具SGuard,可对比多种主流技术的检测结果并统一展示。
其他文献
随着移动互联网技术的发展,互联网流量大幅增加。互联网广告作为流量变现的主要手段,在广告市场的份额持续上升。由于互联网广告形式的多样性和不确定性,使得传统的广告购买已经不能满足广告主对于广告投放的精准性要求,因此以精准投放和实时竞价为核心的程序化广告交易应运而生。程序化广告交易是指广告主通过数字平台从受众匹配的角度由程序自动化完成展示类广告的采买和投放,并实时反馈投放分析的一种广告投放方式。程序化广
【研究目的】本研究基于中国本土的和谐护理理论构建符合我国文化背景的安宁疗护结局质量的评价指标,分析其科学性及临床适用性,为客观评价临床安宁疗护服务工作质量提供依据。【研究方法】1.以和谐护理理论为理论基础,采用文献研究法及质性研究法初步拟定安宁疗护结局质量评价指标条目池;2.结合德尔菲专家函询法对20名专家进行函询,要求专家对各指标的“重要性”进行评分,同时提出修改意见。根据专家咨询结果最终确定安
在进行历史建筑遗产的保护与修缮研究过程中,历史资料信息的整理与收集是至关重要的一步,其关系到整个研究进程的顺利进行和研究结果的得出,以及历史遗产价值判断的得出和修缮设计的进程。本文研究最开始源于南京大学鼓楼校区内的民国建筑斗鸡闸何应钦公馆的修缮设计项目研究,在进行项目前期历史研究中发现了历史信息收集整合与项目历史演变梳理所存在的问题,由此引出想要构建一种历史研究体系,将收集到的碎片化且杂乱的历史信
混沌信号因为其类噪声、宽频谱和良好的相关性等特点,其应用场景越来越广泛,成为通信中的一种理想的信号。由于半导体材料的一些固有属性,使得半导体激光器对外部的扰动十分敏感,其输出信号很容易产生非线性动力学效应,而且半导体激光器具有体积小、制造简单、使用寿命长、电光转换效率高以及波长覆盖范围广等优点,成为了获得混沌信号的良好光学元件,因此目前对基于半导体激光器输出信号的非线性动力学特性的研究已经成为热点
【目的】探究激光选区熔化工艺制作钴铬合金(SLM Co-Cr)及纯钛(SLM CP-Ti)可摘局部义齿金属支架的精度,包括真实度及再现性两方面。比较铸造钴铬合金(CA Co-Cr)支架与激光选区熔化钴铬合金及纯钛支架在特定位点的适合性。【实验材料及方法】选择标准上颌Kennedy I类牙列缺损模型,基牙预备后使用3Shape Trios 3口内扫描仪体外扫描后输入设计软件(Dental Syste
随着便携式电子设备和电动汽车的飞速发展,对锂离子电池正负极材料提出了更高要求。目前使用最多的负极材料-石墨负极,其理论容量较低(372 mAh g-1),已经难以满足当下的需求。硅由于其理论容量高、储量丰富被广泛关注。然而,硅在充放电反应过程中,会出现巨大的体积变化(>300%),导致电极材料破碎、脱离电接触,固态电解质界面膜反复生成和破碎、不断消耗电解液、库伦效率低等问题。研究者们提出了多种解决
随着我国基础云服务市场(尤其公有云市场)近些年迎来大规模增长,各个云服务厂商都不断提升云业务的战略地位,加之越来越多的传统行业也有用云需求,导致云服务的用户规模呈现爆发式增长。云服务厂商亟需一套系统帮助了解用户在产品和服务上的关注点。搜索数据运营分析是当前云服务厂商实现精细化运营的重要手段。它通过采集用户在企业官网搜索产品产生的日志数据进行分析,来识别潜在用户,并在此基础上实现云服务产品的精确投放
伴随随着城市新区建设以及老城区品质提升的建设浪潮,城市公共配套设施受到越来越多的关注。社区中心作为城市公共配套设施一项重要的单元组成,其发展正趋向于综合化。与此同时,传统社区中心的空间已逐渐无法满足居民需求的动态化和活动的多样化,社区中心作为物化的社区精神培育地,在为居民提供基础服务的同时,鼓励居民交往活动,提升居民的社区认同感,是社区中心的一种发展趋势。智慧城市和后疫情时代的背景对社区中心的公共
用0、1、2可以组成最大的三位数210,也能组成最小的两位数10。下面就来进一步研究数学中的一些最大和最小问题。【例1】有两个数的和是9,当这两个数各是多少时,它们的乘积最大?【思路分析】和是9的两个数,有4种可能。要想知道这两个数各是多少时,它们的乘积最大,需要把它们一一列举出来,然后再进行比较,做出选择。解:
目的:1.了解成人日间手术患者护理风险管理现状。2.基于HFMEA模式,利用前馈控制的思路与方法,根据成人日间手术患者诊疗护理工作流程,识别成人日间手术患者高危护理风险因素。3.针对高危护理风险因素,分析失效模式与失效原因,通过小组讨论、查阅文献和德尔菲函询法,构建护理干预方案。4.选择部分干预措施在成人日间手术患者中进行实证应用,探讨应用效果。方法:1.调查南京某三甲医院成人日间手术患者护理风险