基于多阈值的对比模式挖掘及其在不平衡分类中的应用

来源 :湖南大学 | 被引量 : 0次 | 上传用户:zxc694134272
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数据挖掘作为二十一世纪最热门的研究领域之一。随着数据挖掘技术的不断发展,人们已经开始能够从无规律的数据中挖掘出易于理解、便于存储的知识。传统的不平衡数据集对比模式挖掘算法往往是基于单一支持度阈值,随着数据集规模的增大,可能丢失掉一些具有强区分性但支持度较低的项集,而这些项集在基于对比模式的分类算法在对样本进行分类时会一定程度上提升分类的性能。此外,传统的对比模式挖掘算法一般基于单台机器运行,具有线性执行的特点,由于单台机器存在CPU、内存等方面的限制,传统的对比模式开始出现瓶颈,尤其是在面对当今数据的规模大、数据的维度高等特点时,传统的对比模式挖掘算法具有效率较低、扩展性不强的特点。传统的不平衡数据集对比模式分类算法虽然能够一定程度上解决类偏倚问题,然而这些算法往往存在如下缺陷。首先,当数据集的规模较大时,传统的对比模式分类算法由于对模式支持度和的依赖过大,仍然在分类时出现类偏倚问题。此外,传统的对比模式挖掘算法往往根据模式的支持度和来对待分类样本加权,导致分类的结果受模式支持度和的影响过大。针对上述问题,本文主要做了如下工作:(1)本文提出了一种基于多支持度阈值的对比模式并行挖掘算法MSNLIST。该算法能够在对比模式挖掘过程中根据项集的频次计数动态地为项集选取合理的支持度,这样在一定程度上克服传统的对比模式挖掘算法可能过滤掉一些具有一定区分性的项集的问题。另外,该算法可以基于类似MapReduce的批处理如Spark处理大规模、高维度数据集,基本思想是将被挖掘空间切分为小的、独立的单元,这些独立的单元由于不存在相互依赖关系,因此可以被并行地挖掘。本文在多个UCI数据集上对算法进行了实验。实验结果表明,本文提出的对比模式挖掘算法能够挖掘出更多的具有区分性的对比模式,这些模式能够在后序分类实验中提升实验的分类准确度。另外,该算法能够在有效的时间内对大规模的数据进行挖掘,能够通过增加计算节点从而减少挖掘时间,具有良好的扩展性。(2)本文基于数据集的不平衡度IR,提出了一种基于奖惩系数的不平衡数据集的对比模式分类算法RPCP。该算法能够根据类的不平衡度IR来计算样本的奖惩系数,通过奖惩系数来计算出样本在不同类别中的分类得分,这样能够一定程度上克服上述传统的不平衡对比模式分类算法的缺陷。
其他文献
我国于上世纪90年代开始探索资产证券化业务,随着资本市场的发展,资产证券化种类不断丰富,发行规模呈指数式增长。2018年,资产证券化产品共发行2.01万亿元,年末市场存量为3.0
太阳光中的紫外-B(UV-B)辐射在植物的生长发育过程中发挥着重要的调控作用,随着人类工业化和现代化的进程,臭氧层衰减及其所伴随的地表UV-B辐射增强变得不可忽略。研究表明表
基于云平台容量大、运算快且方便价廉等技术优势,越来越多的企业和单位选择将本地数据的存储和维护外包到云平台,为了保证用户的隐私安全,在数据外包之前对数据加密是最常用
广义推断是基于广义检验变量和广义枢轴量的统计推断方法,由于其性能良好,近年来被不断的应用于各类统计推断问题当中。此文章讨论广义推断方法在几种常见分布的参数推断中的应用,这些分布包括正态分布,对数正态分布,逆高斯分布,多元正态分布,指数分布,广义逆指数分布等。本文采取的主要方法是:通过构造兴趣参数的Fiducial模型,得到它们的广义枢轴量,进而给出检验的广义p值,以及兴趣参数的广义置信区间,主要结
光电化学(PEC)技术的是:在可见光下,光敏材料中价带电子向导带移动,导带电子进而向电极或者溶液发生移动,价带产生空穴,空穴被电子供体捕获,在光电材料之间形成电化学回路,产生电信号。当光敏材料与待测物质直接或间接作用时,电信号发生变化,根据这种变化,对待测物质的含量进行分析。PEC适配体传感器具备背景信号低,灵敏度高、特异性强等优点,引起广大研究者们的关注。PEC适配体传感器已经应用在多个领域,如
昭通地区页岩气区块具有储层厚度优质,有机碳硅质含量高等优点,是我国页岩气的主力开发区。该区水平井钻井作业中的钻井液技术面临井壁失稳、水平段摩阻高、扭矩大等难题,常
随着经济的发展,传统混凝土的发展逐渐受到一定的限制。聚苯乙烯泡沫塑料(Expanded Polystyrene简称EPS)是一种具有轻质、隔热、隔音、防震、耐水性、较强的抗震性等优良特征的轻型高分子聚合物。通过对废弃EPS回收并改性后,将其作为骨料,用于制备轻质混凝土,不仅减少了资源消耗,而且减轻其对环境的污染。基于此,本文选取四种不同密度(10kg/m3、15kg/m3、20kg/m3、25kg
多模态检索是指在不同模态的数据中进行检索,即通过一种模态的数据检索另一种模态的数据并保证两种模态的数据有相似性。如今多模态哈希算法已经被广泛应用于大规模多模态检索的近似最近邻搜索(Approximate Nearest Neighbor,ANN)中。其中有监督的哈希算法通过利用数据对的语义相似性来提高哈希编码的质量,最近受到越来越多的关注。对于大多数现有的用于多模态检索的有监督哈希算法,数据始终依
近年来,恐怖暴力事件频繁发生于世界各地,各种形式的炸药和爆炸装置被用于恐怖犯罪活动,造成了大量的人员伤亡和财产损失。硝基芳烃类爆炸物是目前使用的最为广泛的一类爆炸物。爆炸过程中排放出的相关化合物及其降解产物也对环境产生了严重污染,对人体健康危害极大。因此,依靠物理、化学等科学技术手段对硝基芳烃类爆炸物进行分析和检测,不仅对预防和打击恐怖犯罪、维护国际和平与发展意义重大,对监测和预防环境污染、维护动
当今社会对电能的需求量日益增加,而火力发电一直是最主要的发电方式,但火力发电面对着日益严重的环境污染和能源紧缺问题,这就需要提高其发电效率,而提高火电机组的蒸汽参数