智能的数据标注平台的设计与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:yangclio
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器学习和大部分的人工智能算法都离不开各种数据集,因此数据标注的需求也急剧增加。完全手动标注数据需要耗费大量的人力和时间,数据标注的准确性也不一定能够达到标准。为了满足数据标注的需求,针对人工数据标注效率和质量不高的问题,本文设计并实现了一种智能的数据标注平台,旨在提供一款易用的标注工具,更好的完成标注任务,在实现基本标注功能的同时,也能显著地提升数据标注的效率以及数据标注的质量。本文结合数据抽样、数据聚类和数据预分类技术,完成了智能的数据标注平台的设计与实现。为了得到较平衡的抽样数据,本文提出了一种面向数据集优化的多阶段融合抽样算法,通过实验证明可以得到平衡的数据。为了提升单一聚类算法的准确度,本文提出了一种基于投票选择的融合聚类算法,证明了该算法聚类效果优于单一聚类算法。为了实现数据预分类,本文采用了面向标签预分类的KNN分类算法并验证了算法的有效性。以上三种算法结合数据标注可以有效提升标注效率和质量。在此基础上,本文根据需求分析给出了系统的总体设计并划分了模块。接着,详细介绍了关键模块的设计和实现,根据测试用例对系统进行了全面的测试,证实了本文智能的数据标注平台的设计和实现符合要求。设计和实现的平台可以完成多角色用户的权限管理,对标注平台进行数据管理、人员管理、标签管理和标注任务管理,对数据进行智能化标注,对已标注数据进行质量检测,完成数据标注优化,既能保证数据标注的效率,又能保证数据标注的质量。
其他文献
雨天行车作为一种事故高发率的驾驶工况,由于挡风玻璃和后视镜表面的雨滴未及时清理而引起驾驶员的视线模糊,引起驾驶员注意力不集中造成对前车车距和后车行车动向的误判,造
食源性致病菌是造成当今社会食品安全问题的重要因素,金黄色葡萄球菌、沙门氏菌和大肠杆菌O157:H7是食品中常见的三种食源性致病菌,可导致人腹泻和呕吐,严重时甚至可致人死亡。常用食源性致病菌检测技术缺陷是检测周期长,设备和试剂昂贵且操作过程复杂,样品前处理复杂而繁琐。免疫磁珠分离(immunomagnetic separation,IMS)可快速分离致病菌,保护分离菌的生物活性,有效消除影响核酸扩增
近年来,风电装机总量和发电量持续快速增长,研究大规模风电场接入对电力系统动态稳定性的影响显得尤为重要,这就需要准确的风电场等效模型来表征风电场整体的动态特性。如何建立精确有效的风电场等值模型一直以来都是一个热点和难点问题。等值模型需要在实现简便性的同时满足电力系统分析计算的精度和价值需求。本文将对不同的风电场等值建模方法展开研究。首先,根据传统的机理建模方式,为了对由双馈风电机组构成的风电场进行等
校园欺凌在全世界范围内都逐渐受到关注,而校园欺凌中的旁观者是除了欺凌者与被欺凌者之外与欺凌最相关的一个群体,所以对校园欺凌中旁观者行为进行研究具有重要的意义。为了解领悟社会支持、自我效能感、心理弹性、校园欺凌傍观者行为的基本状况及领悟社会支持、自我效能感、心理弹性对校园欺凌旁观者行为的影响机制。研究使用《参与者角色问卷》、《一般自我效能感量表》、《青少年心理弹性量表》、《领悟社会支持量表》作为研究
随着现代移动网络的日益发展,移动网络用户量增长迅猛,同时也带来了数据规模的爆炸式增加,如何在大数据的环境下进行移动网络性能评估成为了一个重要课题。目前,主流的移动网络性能评估方法是依靠统计学知识,通过专家经验对指标数据、路测数据、拨号测试数据或测量报告数据等进行网络性能评估。然而,在数据规模日益扩大的情况下,传统的网络性能评估方法越来越难以应对海量数据带来的挑战。因此,要建立依靠多维度、更智能、适
智能化的今天,变电站作为电力系统的重要环节,是保证电能质量安全稳定供应的核心枢纽。作为智能电网的核心环节,智能变电站备受关注,利用智能巡检机器人来构建智能电站是科研热点,开发普及型巡检机器人是推进变电站智能化的动力。据此本文针对巡检机器人的动力系统、视觉系统两大核心部分展开研究;采用通用型嵌入式芯片作为主控芯片,方便规模化量产及广泛推广;设计双感视觉系统,以高清摄像头和红外光感元件为视感主体元件,
本文研究了几类加法半群为纯整群的半环,在左Clifford半环、矩形Clifford半环的延伸下,给出了它们的定义、结构与性质.本文分为三章,其主要内容如下:第一章,研究了拟Clifford
近年来房地产行业受国家政策宏观调控及土地价格日益增长的影响,企业的利润空间不断地被高昂的成本侵蚀,利润率日益下降。加强企业的成本管控,降低项目开发成本已经成了企业创造利润的有效手段。本文以SM集团LY项目作为研究对象,介绍了房地产项目的成本分类构成及成本管理流程,阐述了挣值法的基本原理,结合LY项目对企业的成本管控流程和目前管理现状进行分析,并运用挣值法对项目的成本及进度进行实时跟踪,根据跟踪结果
低阶煤储层中粘土矿物处于早成岩阶段,吸附性强于中~晚成岩阶段粘土矿物。然而,粘土矿物对低阶煤系储层吸附行为的影响与贡献,业界关注甚少。为此,本文以内蒙古东北部五九凹陷下白垩统大磨拐河组为例,基于煤及煤系泥岩样品测试分析,探讨粘土矿物对低阶煤及煤系泥岩吸附性的影响。分析表明,研究区煤层主要处于长焰煤阶段,镜质组反射率多在0.5~0.7%之间;煤系泥岩物源是来自活动大陆边缘与被动大陆边缘构造背景下的岩
本文通过构建引入CEO股权激励机制的委托代理模型,基于大股东掏空视角探索CEO持股的经济后果,以2006-2018年在沪深交易所上市的A股民营公司为样本,实证分析了CEO持股对大股东掏空的影响。研究结果发现:(1)CEO持股能够显著抑制大股东的掏空行为,对CEO实施股权激励的公司其掏空程度显著的更低,证实了CEO持股的“利益协同效应”。(2)CEO持股水平与大股东掏空存在显著的正U型关系,表明CE