不确定数据库的近似极大频繁项集挖掘

来源 :大连海事大学 | 被引量 : 0次 | 上传用户:virusniper
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近些年来,概率数据库或不确定数据库广泛地应用到了多个领域中,例如地下煤矿检测、移动物体搜索等。对于一个不确定数据库,其概率频繁项集的挖掘是国内外学者关注的热点问题。为了更好地转译和利用不确定数据库的概率属性,可能世界模型的概念经常被用到。不过,由于一个不确定数据库能产生指数级个可能世界,对于较大规模数据库,直接在可能世界上挖掘极大概率频繁项集是一项极具有挑战性的工作。研究人员提出了一些算法以解决在可能世界上计算代价过大的问题,例如引入动态规划算法(DP)或者分治算法(DC)。这些算法计算的结果和通过可能世界得到的结果是相同的,但是这些方法的效率更高、计算速度更快。原因是这些算法只需要计算项集支持度的概率分布而不是生成所有的可能世界。计算卷积值的时间复杂度为O(nlogn)(n为数据库规模大小),显然,这种方式远比在指数级的可能世界上计算项集的组合高效。不过,随着数据集的增大,动态规划算法(DP)和分治算法(DC)不再十分有效。原因是当数据库规模n足够大时,算法复杂度O(nlogn)也会变得过大。为了解决这个问题,本文提出一种使用近似算法来计算极大概率频繁项集的方法,该方法以较小的精度损失为代价,极大地提高挖掘频繁项集的效率。算法包括两个过程:候选集产生和极大概率频繁项集确认。在候选集的产生阶段,论文结合切诺夫定理得到频繁项集支持度期望的界限,大大降低了频繁项候选集的规模;在极大概率频繁项集确认阶段,论文利用中心极限定理,给出了高效估计项集的频繁度的方法。同时,论文也给出了算法中涉及的相关定理的证明,进一步增强了论文提出算法的理论性和可信性。为了进一步说明算法的有效性和性能,论文在六个不同类型的数据库上进行了数值实验和性能分析。在候选集产生上,论文与经典的Apriori算法进行了比较,分析了数据库规模、支持度阈值等参数对于不同算法的影响;在极大频繁项挖掘上,论文与主流的TODIS-MAX算法进行了比较,从运行时间、频繁项的精确度等方面评价了不同算法的优缺点。大量的实验结果表明,论文提出的算法有效地降低了频繁项候选集的规模,以较小挖掘精度的损失为代价,极大地提高的极大概率频繁项集的挖掘效率。
其他文献
以智能手机和无线网络为基础发展的基于位置的服务给用户带来极大的方便,滴滴打车、微博定位、网上外卖等第三方应用在用户的日常生活中占据重要地位。第三方应用会对用户的
TCP/IP体系逐渐无法适应当前网络的环境和需求,国际上纷纷开展新型网络的研究。973项目“一体化可信网络与普适服务体系基础研究”提出的新型互联网,是具有我国自主知识产权
近几年,有机氮和有机硫化合物作为底物的有机合成反应引起了很多实验化学家的兴趣,并逐渐发展成了研究的热点。其中有机氮化合物主要包括环烷基肼、芳肼、杂环肼和酰肼等各种
DTN即延迟容忍网络,是一种在网络传输过程中允许一定程度的网络中断或延迟的网络体系结构。DTN的出现提高了端对端网络建立的可行性和高效性,为端对端通讯网络的组建提供了新
传统的数据中心之间是通过三层来进行互联,二层之间是隔离的。近年来,伴随着数据中心由唯一的主中心发展成为多个不同地点的中心,虚拟机动态迁移也在数据中心得到了广泛的应
Legendre-Stirling数是在Everitt探究经典二阶勒让德微分表达式的谱理论时提出来的,而且Legendre-Stirling数是拉格朗日对称式中勒让德表达式的积分复合幂的系数.Jacobi-Stir
局域网接入认证技术作为宽带网络接入的关键组成部分,是实现可管理、可运营网络的关键。Portal认证是一种接入认证方式,一般称为门户认证,或Web认证,Portal认证协议主要应用
计算机网络将计算机与通信技术融合在一起,它实现了远程通信、信息交互和资源共享,而协议在计算机网络中一直相当重要。分布式系统中各种通信实体之间交互信息必须满足协议规
目前动态能力已经成为企业战略领域研究的热点,并取得了丰硕的研究成果。然而这些研究存在一些缺陷,比如战略定位与动态能力的关系研究比较少,同时动态能力能否直接产生竞争
我国是一个农村居民人口大国,我国约三分之二的老年人口在农村,当前我国人口老年化问题十分严重,在农村地区更加严重,尤其是西部地区和贫困地区农村居民社会保障形势十分严峻。农村社会养老保险制度被认为是解决农村老年人生活保障的根本路径,我国实施农村社会养老保险十余年,已经初步形成了基本的法律制度框架,我国《社会保险法》对农村社会养老保险制度进行了确认,但内容不够具体,当前农村社会养老保险法律制度仍然主要依