一种高效的不确定图数据库上频繁子图模式挖掘算法

被引量 : 0次 | 上传用户:jimlancer
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术日新月异的的发展变化,在越来越多的领域中,研究者开始使用图这种数据结构来表示和存储数据对象之间的关系。这些数据被称为图数据。图数据中包含了大量的我们希望获得的知识和信息。如何从图数据中挖掘数据对象间的结构特征、形成规律及存在模式等知识,具有重要学术价值和实际意义。在许多领域的实际引用中,由于数据获取技术的客观局限、数据的不精确性等原因,获得的数据天然的带有不确定性。这种带有不确定性的图数据,称之为不确定图数据,例如生物信息学中的蛋白质相互作用网络,无线传感器网络的节点间的拓扑结构等等。在图挖掘技术中,频繁子图模式挖掘是非常重要且被广泛研究应用的一类。图数据中挖掘频繁子图模式可以获得很多有价值的信息,在诸如蛋白质相互作用网络研究,无线传感器网络研究等领域中得到了广泛的重视和研究。而如何在图数据库中进行频繁子图模式挖掘,得到了越来越多的关注。图数据库中挖掘频繁子图模式的难点之处在于,不仅存在着海量的可能子图模式需要检验,而且还需要做极大数量的子图同构性测试来判别图中是否蕴含一个给定的模式。而若处理的图数据带有不确定性,则第二个难点更为突出。本文综合运用数据挖掘的相关理论、概率论的基本知识和算法学,以最小化不确定图数据库中挖掘频繁子图模式算法运行的时间开销和空间开销为目的,研究期望语义下的不确定图数据库中频繁子图模式挖掘算法。主要的研究成果提供一个在不确定图数据库中能够有效挖掘频繁子图模式的算法MUSIC(Mining Uncertain Subgraph Patterns With Index of Connectivity andEdge),该算法运用建立在不确定图数据库上的UG索引(Uncertain Graph)来减少为了挖掘频繁子图模式所需要的比较次数。MUSIC算法根据apriori性质可以有效地枚举可能的子图模式,而建立在不确定图数据库上的UG索引则可被用来减少为了计算每个候选模式的期望支持度所进行的比较次数。本文还提供额外的基于待检验蕴含图调度和剪枝的优化策略,这样可以有效的提高算法的性能。通过在基于三个真实数据集及人工数据集上的不确定图数据库上的一系列实验,通过与代表该领域最新水平MUSE算法的性能指标进行对比,显示了本算法可以有效的降低在不确定图数据库中挖掘频繁子图模式所需的时间和空间开销。
其他文献
虚拟财产是随着社会发展和技术创新而产生的一个概念,特别是随着网络的全面普及,它越来越成为我们工作和生活不可缺少的一部分。虽然已经不是一个全新的概念,但由于在理论研究中
资本结构问题是企业筹资决策中的难题之一,也是现代企业经营决策的一项主要内容,资本结构会影响企业的融资成本和市场价值,也会影响企业的治理结构,同时,资本结构通过企业行
<正>随着市场经济的不断发展,陈列设计的重要性日益凸显,生产企业及百货业越来越关注如何利用陈列技艺在销售终端提高商品附加值及品牌价值,整个服装行业对产品陈列师的需求
强化内部审计是企业转变经营机制、适应社会主义市场经济、建立现代企业制度的客观要求。同时 ,我国加入WTO后 ,企业面对经济全球化大环境下激烈的市场竞争 ,如何发挥企业内
本文通过对项目教学法及其特征的研究,试图将项目教学法运用于高职教学改革,并在此基础上给出了项目教学法的实施策略。
<正>有人会觉得一年的时间太漫长:难道准备怀孕也有那么多的事情要做?每个人的情况不同,你可以针对自己的情况,按部就班地慢慢进入准备怀孕的阶段。提前1年开始记录体温变化
<正>农用无人机植保是以无人驾驶直升机为载体,配置高效率超低量施药设施,实现低空高效超低量农药的喷施。与传统的背负式喷雾器、自走式植保机械相比,喷防效率和效果明显提
从金融发展规模、金融发展效率和金融发展环境3个维度构建金融集聚评价指标体系,采用熵值法对宁波县域金融集聚水平进行了综合测度,结果发现县域间金融集聚差异显著.为更好揭
近20多年,中国经济持续以年均9%的增长率高速增长,2012年GDP为51.9万亿元,跃升至世界第二位。但中国的经济增长是以环境恶化和资源的巨大消耗为代价的。在经济增长的同时,人口总量
德国哲学家恩斯特·布洛赫通过对共产主义的可能性空间与未来视域的阐释,以及改变世界、扬弃异化的解放哲学特质阐述,标明共产主义是终极希望远景与它的具体现实可能性相结合