大数据集挖掘的层次二分抽样算法

来源 :计算机工程与应用 | 被引量 : 0次 | 上传用户:qq3743
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
针对目前关联规则挖掘的数据集不断增大,而很多抽样算法精度不高还要解决一系列NP难问题等情况。在分析利用频繁1项集进行抽样处理的基础上,提出了高精度的基于频繁n项集平均划分的关联规则挖掘算法——EHAC算法。理论和实验都表明,EHAC能够提高数据挖掘精度,在数据平均划分的同时,尽量保证频繁n项集能够平均划分,减少了数据库扫描次数,一定程度上缩减了数据库规模。
其他文献
一个阶层的审美风尚总是内在地体现了这个阶层的基本文化存在状况及其价值取向,并反映着其产生的社会根源.本文试图通过对<世说新语>中反映出来的两晋名士关于饮食、清谈和山
本文从家世出身、社会环境、政权更迭、文化思潮等角度探讨了山涛心态的发展演变.由此,展示了魏晋之际,士人普遍的价值观、生活情趣以及他们的精神状态,同时对魏晋玄学的演变
文中结合本馆实际,分析了高校图书馆实现自动化管理后其自身存在的问题,提出同向21世纪高校图书馆管理体系和构建“一体两翼”知识结构的设想,探讨了具体实施的方法与途径。
CSS (Control System Studio) is one of the interface development tools that can be used for the EPICS (ExperimentalPhysics and Industrial Control System) distrib
在遥感图像融合中,传统PCA算法会损失部分有用信息,从而使得融合结果的光谱分辨率受到较大影响,针对这种情况,借助小波变换优良的时频分析特性,利用特征量积来融合多光谱图像的第一主成分,实现了一种基于特征量积与PCA的小波遥感图像融合算法。通过对来自不同场景不同卫星的多光谱和全色图像进行融合实验,结果表明,该算法无论在主观视觉还是在客观统计数据上,均具有比其他方法较佳的融合效果。
区域模型已经成功应用于模拟生物医学和药物代谢动力学系统中。针对一类具有参数不确定性的正定区域系统,对其质量控制的反馈稳定性提出了一种新的正定鲁棒控制律,该控制律基
磁盘阵列系统中,如何提高I/O传输率一直是一个关键性问题。基于并行性思想,一种伪并行I/O调度策略被应用在带缓存的磁盘阵列系统之中。该调度策略力图在外部I/O请求响应和内
主体的创造性发挥和情商领悟,乃是沟通音乐形式之美与诗性之美的艺术中介,而正是这种质的规定性,才使音乐审美教育的规范训练和情感陶冶成为可能,从而在潜移默化的象征通约中
提出基于信息熵特征选择和信息瓶颈算法的图像聚类算法,首先提取图像的Gabor小波纹理特征和灰度共生矩阵纹理特征,然后采用信息熵特征选择方法进行特征降维;图像聚类方法很多,其中较为典型的k-means聚类算法,但它过分依赖距离函数和聚类中心的选择,采用信息瓶颈算法对图像进行聚类,信息瓶颈算法不需要定义距离函数,它考虑了样本与特征的关系,不仅压缩了样本的信息,同时又考虑保留特征信息。实验结果表明,提出