基于Gibbs抽样的关联规则挖掘研究

来源 :浙江工商大学 | 被引量 : 0次 | 上传用户:jiba00
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,人类进入了大数据时代,产生了海量数据。传统的数据分析方法和技术已难以处理,数据挖掘技术也就应运而生了,其中数据挖掘中比较重要的一个分支是关联规则挖掘,已被广泛地应用在各种领域,尤其是在生物信息学领域。生物信息学是一门新兴的交叉学科,已成为关联规则挖掘最富有机遇与挑战的应用领域之一。当前用于从数据集中进行关联规则挖掘的算法大多数是确定性的和枚举的,因此当应用于如项目空间具有几百个项目的密集型数据集时,其计算就变得难以处理。本文使用的是一种基于Gibbs抽样的随机搜索过程,从项目空间中随机地抽取给定规则后件的规则前件,再从样本生成的简化事务数据集中来寻找原交易数据集中最重要的关联规则。首先选取关联规则重要性度量,并给出了基于Gibbs抽样随机搜索的算法过程。再通过模拟生成项目空间较小和较大的两组数据集,分别使用本文提出的方法和Apriori算法来挖掘出给定规则后件且最重要的关联规则。最后使用提出的基于Gibbs抽样方法来分析一组DNA序列剪接位点数据集,分别找出剪接位点属于EI类和IE类的与基因序列哪些字段有重大关联以及这些字段都取的是什么碱基。通过模拟实验,我们可以发现基于Gibbs抽样的随机搜索方法能够简化项目空间,原数据集中给定规则后件且最重要的关联规则是可以从简化数据集中以极限概率为1来找到的。实证部分发现DNA序列剪接位点是EI类的主要与第31个字段碱基为G,第32个字段碱基为T和第35个字段碱基为G有很大的关联。IE类的主要与第21个字段碱基为T,第29个字段碱基为A和第30个字段碱基为G有很大的关联。
其他文献
近年来,国际贸易局势变化无常,货币汇率波动幅度逐渐加剧,企业对于人民币汇率变动预期也在不断调整。伴随着国内信贷规模的普遍收紧,从事进出口贸易的企业对短期贸易融资的需
实际工业控制过程中经常会存在各种不确定性成分或者外部干扰,这些情况会降低控制系统性能指标,更甚者会导致整个系统不能正常工作。设计合适的控制策略来充分考虑这些因素的
1978年以来,中国的国有企业经历了不同时期的改革与兼并重组,经济结构、规模与管理体制均有不同程度的变化。在经济快速发展的今天,无论我们如何评价,都不可否认国有企业在我
随着高性能计算环境规模与复杂性的不断增加,不可避免导致了系统的可靠性急剧下降,各节点利用率不均衡。造成长期运行的应用程序经常被系统故障中断,因此增加系统可靠性是十
模因算法(Memetic Algorithm,简称MA)是一种融合了群体全局搜索和个体生命周期学习(局部搜索)的启发式搜索框架。在MA解决复杂优化问题的过程中,全局搜索和局部搜索的计算资
近十多年来,Internet以前所未有之势使社会各个领域发生了根深蒂固的变化,许多企事业单位,各种组织机构以及个人越来越依赖于由Internet及相关技术提供的数字资源和通信信道
随着计算机应用的普及,存储在计算机中的信息越来越多,如何保护这些信息的安全成为人们关注的焦点。保护内存中数据的安全主要是保护数据的机密性和完整性。完整性可以确保攻
城市中的农业转移人口在经过三十多年的城市生活之后,如今已然形成了固化了的城市生存之道,他们在城市建构起来的日常生活场域显然越来越远离城市社会,城市内部二元矛盾日益
脑科学与类脑智能技术是当前的科技前沿,对人类的健康和人工智能技术以及新兴产业的发展意义重大。脑机接口技术是不依赖于大脑外周神经与肌肉正常输出通道的通讯控制系统,可
自从弗劳德在140多年前创建第一座船模试验水池以来,船舶与海工结构物流体性能检测长期依靠物理水池模型试验。在我国船舶与海工产业创新驱动急需互联网+水动力数值模拟先进