不确定数据库加权频繁项集挖掘算法的研究

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:hhgzju1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网、物联网和移动互联网的快速发展,人类社会已经进入大数据时代。如何从大数据获取其中的价值,逐渐引起研究界和工业界的关注。其中,大规模数据库中的频繁项集,被认为是一种常见的有价值信息,被广泛地应用到多个研究领域,如聚类分类、关联规则提取、移动物体检测等。不过,当数据库中的数据项存在不确定性以及数据库的属性集具有权值信息时,其频繁项的挖掘具有一定的挑战性。针对不确定数据库,研究人员提出利用可能世界模型,实例化不确定数据库的每一种可能世界及其存在概率,把不确定数据库的问题求解转化为对于相应确定数据库的操作,进而提出了不确定库频繁项集的两种定义:基于支持度期望的频繁项和基于支持度分布的概率频繁项。同时,实际中的不确定数据库,其各个属性值有时并不是同等重要的,也即需要挖掘其中的加权频繁项集才更具实用意义。不过属性权值的引入导致了经典频繁项集反单调性的失效,从而降低了传统挖掘算法的效率。近年来,有学者提出了一些针对加权频繁项集的反单调性。然而,现有算法只针对基于支持度期望的频繁项挖掘,而缺乏基于支持度分布的加权概率频繁项的高效挖掘算法。基于上述分析,本文提出了一种新型的针对支持度分布型加权概率频繁项(w-PFI)的挖掘算法,该算法基于经典的Apriori型生成-验证框架,采用广度优先的频繁项集查找方式。为了提高算法的挖掘效率,我们进一步研究其剪枝技术来缩小候选项集的规模。具体地,我们扩展了权值判断闭包技术,定义了一种适用于w-PFI挖掘的反单调性。基于这种反单调性,我们给出了一种新型的频繁项候选集的剪枝技术,其剪枝能力高于权值判断闭包方法本身的剪枝方法。同时,我们利用泊松二项分布给出了 w-PFI支持度分布的概率模型,并从概率的角度提出了两种更为高效的近似剪枝技术。最后,本文在真实数据集和合成数据集上进行了大量实验,从运行时间、准确性和可扩展性等方面,评价了所提出的精确w-PFI和近似w-PFI挖掘算法的性能,并与现有的算法进行了对比,说明了本文算法降低了传统w-PFI挖掘算法的运行时间,具备较高的准确性和良好的可扩展性。
其他文献
胡尖山油田安201区长6油藏位于鄂尔多斯盆地陕北斜坡中段,于2009年开始滚动建产,开发层位长61层,油层平均厚度16.9m,平均孔隙度13.4%,平均渗透率0.79×10-3μm2,动用地质储量
超导磁体是大多数超导电力设备的主要元件之一,其交流损耗直接关系到整个系统的效率,损耗产生的热量将会导致磁体温度升高,甚至会导致磁体失超,影响系统的安全可靠运行。针对超导磁体运行的安全问题,精确地计算和测量磁体的交流损耗,评估磁体内部的温升,获取安全可靠的电流运行区间,结合安全理论和电气技术对超导磁体的结构进行优化设计,从超导线圈本身出发防止失超事故的发生,做到本质安全化,对整个系统的安全、高效运行
分权型的财政体制是当前世界上许多国家治理的主流选择,围绕分税制以及国家财政体制的问题,国内外学者做了许多的研究,观点不一。近些年,在对财政分权研究的基础上,学界提出了国家财政体制垂直失衡的问题。财政体制垂直失衡是指在财政分权体制下中央和地方政府收入权利和事务开支的不匹配状态。关于中国的分税制改革,学界比较统一的认识是,中国在1994年实行分税制改革过后,财权大量向中央集中,而许多事权向地方下放,造
烟幕是现代战争重要组成部分,而烟幕云团的毫米波衰减率是研究烟火药配方与功能添加剂设计的一个重要参数。所以独立自主开发出一套能满足烟幕衰减率测量的毫米波频段的专用测试系统显得极其重要。本文根据南京理工大学提出的“3mm/8mm毫米波透过率测试系统”的技术需求,研究了W和Ka频段收发模块,结合其他部件如定制的天线,线性电源、架设平台和相关软件等,集成了一套完整测试系统。该系统可用于外场条件爆炸成烟的毫
基于石墨相氮化碳(g-C_3N_4)的光催化氧化技术能够在可见光下有效地降解挥发性有机物、内分泌干扰物和药妆类污染物等有机污染物。传统的g-C_3N_4被认为是一种化学性质稳定的非金属光催化剂,但是它也面临所有光催化剂都具有的问题:电子-空穴复合几率高和可见光利用效率低。改性g-C_3N_4可以提高其光生电子和空穴的分离效率,进而提高其光催化活性。本学位论文在g-C_3N_4上原位引入氮缺陷以构建
“校中厂”教学模式能够有效加强校企之间的互动,为在校学生提供更多更好的实训实习机会,提高学生的创新创业能力,从而提高学生的动手能力和就业竞争力,同时企业也可节约一定
准噶尔盆地陆东地区滴水泉凹陷周缘石炭系火山岩油气勘探已取得重大突破,天然气显示丰富。但由于该区受火山岩发育影响,石炭系地层反射较差,烃源岩整体分布和发育特征不清楚
分数阶微分方程在物理、化学、生物等方面有非常重要的作用。近年来,有不少学者考虑了带有分数阶导数边界条件的空间分数阶扩散方程的数值方法。在此基础上,本文主要研究在低
通过高分子材料表面功能化以实现对目标分子的物理吸附在众多领域具有很大的应用潜力。氢键是一种理想的物理吸附作用力,但是许多吸附都在水相中进行,而水分子具有强氢键形成能力,往往会削弱甚至破坏吸附剂和被吸附物之间的氢键。因此如何在水相中实现稳定的氢键吸附存在技术上的挑战,具有一定的研究意义。本文通过研究2-乙烯基-4,6-二氨基-1,3,5-三嗪(VDAT)聚合物(PVDAT)水相中吸附水溶性小分子药物
在快速城市化背景下,提高城市土地利用强度成为了缓解城市土地无限制蔓延的重要举措之一,而在不考虑城市社会经济活力发展水平的前提下,一味地提高建筑物高度和城市土地密度,将对可持续发展造成一定的负面影响。城市土地利用强度与城市活力是两个互相影响、互相依赖的系统,对二者空间适配与协调关系的深入理解能够为优化城市空间规划提供理论依据,对于提高城市化的质量、实现城市的可持续发展具有重要意义。本研究用不透水面密