可重叠群智聚类方法研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:sailor111
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术理论的飞速发展与大数据的积累,人们使用计算机对数据进行自动化处理的能力得到了大大提升,然而这个处理过程一定程度上依赖于对数据的人工处理,比如标注、采集。群智是人工处理数据的一种高效实现方式。群智通过雇佣群智工人,使用其智力资源,以分布式的方式在较短时间内完成原本少数人需要很长时间才能完成的任务。群智任务一般整体工作量较大,为降低雇佣成本,雇佣的群体对象一般来自于大规模的非专家人群,人均报酬较低,群智工人个体完成质量不可靠。在缺乏有效自动化算法的情况下,以群智的方式对大量数据做标注、分类等处理,是非常方便的一种选择,群智也因此得到了广泛的关注与应用。聚类是一种常用的分析数据的方式,一般的聚类以自动化方式挖掘数据中的类,然而这是以有数据现成的高级特征或有挖掘高级特征的算法为基础的。本文关注于群智聚类,将人视为天然的特征抽取器与聚类器,通过群智来实现对数据样本的聚类。群智聚类同时具有群智和聚类两方面的特点、难点:因低报酬、人的自私性与非专家等问题,群智工人可能是不可靠的;一个人不能解决太多任务,需要对任务做合适的设计;天然的事物具有多样性,一个数据样本不一定只存在于一个类。纵览已有的群智聚类文献,尚缺乏一个能同时解决这几个难点的群智聚类方案,因此本文设计了一个具有高鲁棒性的通用可重叠群智聚类方案。本文提出的群智聚类包括聚类数据获取与可重叠聚类两个步骤。本文在聚类数据获取部分通过设计最小任务单元与任务分配过程以加强任务完成质量,衔接可重叠聚类的成对比较标签推断,避免对群智工人做复杂的建模,把群智工人反馈的答案转化成采样图,引入类隶属模型并改进了其求解算法,最终实现挖掘数据样本里的类并主动发现类数。后续实验从多方面说明了本文方案的优点:实现现有群智聚类方案无法做到的重叠聚类与类数选择;对群智工人更高的鲁棒性;高可实践性、可扩展性,方案中多个关键参数可调;解决了原类隶属模型求解算法在群智聚类场景下的梯度爆炸、初始化与类数选择问题。
其他文献
东海是西北太平洋主要的边缘海之一,其营养盐来源的多样性是支撑该区域高生产力的主要原因。研究资料表明,黑潮向东海输送的营养盐,特别是磷酸盐,对东海生态系统起到重要作用。但是目前对于年际尺度上,黑潮磷酸盐输送的变化及对东海生态系统影响的基本特征及具体机制研究较少。本文通过一个太平洋区域,分辨率为12.5公里的ROMS-CoSiNE海洋物理-生态耦合模式1997-2016年的积分结果,探究黑潮向东海输送
图像拼接是计算机视觉领域中的一个重要课题,广泛应用于全景视频监控、遥感地图生成、虚拟现实等领域。近年来一系列新的图像拼接算法不断被提出,但是这些算法对大视差图像进行拼接时,容易产生鬼影和局部扭曲等问题。因此研究设计一个针对近物距场景下的视差图像拼接算法是一个具有重要实际意义的技术难题。论文针对宝钢质押钢卷仓库下狭窄巷道中拍摄的大视差图像拼接进行研究,设计实现了一种结合全局配准与局部配准修正的图像拼
辣椒素(Capsaicin)是辣椒果实中体现辛辣味道的有效成分,由于其具有良好的抗氧化、抗菌效果,已经被广泛应用在餐饮、医疗、国防、美容各方面,且相关领域对辣椒素的需求呈现出
实际中收集的数据往往带有空间地理属性.具有空间坐标或相对位置的数据统称为空间数据,这些空间数据之间存在一定的相关性.关于空间数据的统计分析一直以来是统计学和计量经济学的一个研究热点,所以本文考虑空间地理标记下半参数模型的统计推断,具有重要的理论意义和价值.本文重点研究{(Yi,Xi,Zi),i ∈GN}为强混合随机场时空间模型的估计问题,包括模型中参数和非参数两部分的估计.参数分量估计量在张量积B
计算机技术的飞速发展,以及人们对安防领域的潜在需求,促进了各种计算机视觉算法的诞生。生活中随处可见的摄像头为算法提供了大量的视频数据,奠定了视频处理的发展基础。在身份验证领域,最容易获得的数据是人脸。人脸相比指纹、虹膜等更具有直接性、友好性和可靠性,大量的人脸识别算法应运而生。传统的基于静态图片的人脸识别已经发展到了瓶颈,而视频中包含了更多的时间和空间上的信息,具有更大的研究空间。同时视频中的人脸
2020年精准扶贫工作已经进行到了收官阶段,全国各地都取得了优异成绩,年底有望实现全面脱贫。本文根据当前农村精准扶贫工作实际开展情况,为巩固精准扶贫取得的成果进行研究
海表面叶绿素浓度是近年来海岸带环境及灾害的研究热点,也是计算海洋初级生产力的关键所在。本文结合多源卫星遥感资料、现场观测数据,着重研究海表面温度对叶绿素浓度的影响,试图找到这两要素之间的相互关系,以期望用海表面温度来监测叶绿素浓度的变化。利用改进后的DINEOF插值方法将2003-2017年融合后的月平均与8天MODIS-Aqua与MODIS-Terra海表面温度数据与叶绿素浓度数据进行插值重构,
特种加工方法中的电火花线切割技术,适用于加工各种难加工材料、复杂轮廓要求的零件、特殊刀具制造,广泛应用于模具加工、汽车、航空等各个领域,并在工业制造领域中起到了重要作用。水雾中电火花线切割加工与液中电火花线切割加工相比,具有电极间放电间隙窄、工件加工面电解程度小、延伸线度精度高和使用过程清洁环保等特点。与气中电火花线切割加工相比,水雾中电火花线切割加工的加工介质具有一定的绝缘性,又有保护工件,减小
随着大数据时代的来临,信息过载问题日益严重。推荐技术作为一种信息过滤的重要手段,是当前解决信息过载问题的重要方法之一。协同过滤推荐技术因其无需进行内容分析、共享用户的经验信息等优点,成为推荐系统中应用最早、最广泛和最为成功的技术之一,然而,现有的协同过滤技术在性能上仍存在进一步改进空间。在这样的背景下,本文对协同过滤推荐技术展开进一步研究。首先,针对邻居模型、隐因子模型和混合模型三种典型协同过滤模
一般拓扑学有很多方向,比如:度量空间,广义度量空间,覆盖性质等等.广义度量空间顾名思义,是指对度量空间的推广,其中半层空间,σ-空间,Moore空间都是广义度量空间.覆盖性质包括紧空间,仿紧空间,亚紧空间,次仿紧空间,θ-加细空间,meta-Lindelof空间,弱θ-加细空间,弱δθ-加细空间,不可约空间等.D-空间是与覆盖性质密切相关的拓扑性质.D-空间性质是最近一个时期以来一般拓扑学中比较热