基于云计算平台的图算法研究

来源 :北京邮电大学 | 被引量 : 10次 | 上传用户:mcl19800627
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络技术在带给人们大量信息的同时,也极大地增加了人们从海量数据中发现有用知识的难度,而解决这一问题的努力促进了数据挖掘技术的出现和快速发展。目前,数据挖掘技术已被广泛应用到物理、生物、政治经济、互联网络、工程开发和社会生活的各个领域。图挖掘是数据挖掘中重要的一部分,通过图挖掘可以更直观、更便捷的发现数据中隐藏的信息。随着分析方法的成熟和应用场景的延伸,图挖掘带给研究人员的另一个挑战是如何在超大规模数据中进行有效的挖掘。为了应对这些挑战,工业界和学术界越来越倾向于使用云计算平台,如Hadoop等,来进行大规模数据挖掘。本文旨在对基于云计算的图算法进行研究,设计并实现了三个基本的图算法,这三个算法分别为无向图的连通分量算法,有向图的强连通分量算法以及无向图的Betweenness算法。首先,根据每个算法的特点设计了适当的数据结构。合理的数据结构可以让算法在性能上得到很大的提高。然后,在对云计算以及图算法进行研究以后,在云计算平台上设计并实现了无向图的连通分量算法,有向图的强连通分量算法以及无向图的Betweenness算法。无向图的连通算法利用了标签传播算法(LPA)的原理,其中还特别提出了小连通分量的定义以及求解方法。有向图的强连通分量算法通过标签标记和颜色标记来实现。而无向图的Betweenness算法则是在Ulrik Brands提出的回溯思想的基础上实现的。接着,通过实验对上述三个算法进行了正确性验证,并与传统算法进行了性能对比。实验结果表明,本文提出的算法在应对大规模数据时更加有效。最后,作者对Twitster进行了研究,并通过实验将Twister与MapReduce进行了对比。
其他文献
<正> 为了解胎教的效果,本研究用上海医科大学编制的0-6岁发育筛查测验(DST)按1:1配对调查分析了柳州市125例接受胎教婴儿和125例未接受过胎教婴儿的智能发育,发育商(DQ)和智
会议
表观遗传学机制如DNA甲基化、泛素化、组蛋白修饰等在多种生物学过程中扮演着重要的角色,其中组蛋白乙酰化在肿瘤细胞转移增殖、炎症的诱导、心脑血管疾病等方面发挥重要作用
<正>本周四央行宣布再次加息,周五的市场不跌反升,至此,深圳综合指数已经连续收出三根周阳线,市场上升趋势进一步确立。传统观念认为,加息将导致市场下跌,但为什么相当长时间
“储蓄悖论”已成为我国经济发展的障碍, 为了走出这一困境, 政府应重用投资补贴, 扩大投资需求。主要措施有运用财政信息, 引导社会资金投资于基础设施; 运用投资补贴, 进行固定资
网格化管理作为一种数字化的城市管理模式,其所具备的动态全方位管理和多元、精细、个性化服务是传统城市管理模式所欠缺的,自从2004年北京东城进行万米网格探索以来,网格化
翠屏区位于川、滇、黔结合部,是宜宾市政治、经济、文化、交通中心。全区幅员面积1123平方公里,辖10个街道办事处、14个乡镇,总人口77万人,其中农业人口45万人。全区现有耕地面积
5月21日至22日,由全国信息技术标准化技术委员会教育技术分技术委员会暨教育部教育信息化技术标准委员会、中国教育技术协会高校理工科专业委员会、中国教育技术协会技术标准
面对入世后国际市场竞争的进一步加剧,企业竞争情报的重要性日益突出.本文介绍了国际竞争情报的发展及其应用,并分析了我国企业竞争情报的现状,提出了对此应采取的正确态度.