动态图聚类技术及应用研究

来源 :江南大学 | 被引量 : 0次 | 上传用户:xyfan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,用图来表示数据成为越来越常见的形式,图聚类也成为了数据挖掘的重要技术手段。传统的图聚类技术主要是静态图聚类技术,即没有特别关注图结构动态变化的情况,这类方法并不十分适用于许多复杂变化的增量数据处理问题。因此,本文主要从发展增量式图聚类技术的角度,探索能够更好适应动态变化数据分析问题的新方法,并开展代表性的应用研究。针对现有动态图聚类技术在数据采样应用上的不足,本文就大规模数据的增量采样问题及事件发现热点新闻推送展开研究及应用。首先为更好地应对越来越大规模的数据高效处理要求,借助近邻传播算法的优异性能,通过引入分层增量处理和样本点动态赋权策略,实现了一种能够非常有效地平衡处理效率和采样质量的新方法。在人工数据集、UCI标准数据集和图像数据集上进行的性能分析表明,新方法与现有相关方法在采样划分质量上可达到同等水平,而计算效率则可实现大幅提升。另外在深度学习的数据增强应用中,文中方法具有显见的实用价值。其次,为获得更好的事件发现和代表性新闻抽取性能,引入数据集代表点采样聚类的视角,研究实现了一种事件发现及表示的集成分析方法。对于给定的新闻流数据,首先引入信息支撑度定义新闻间关系权重和事件关系权重,并通过引入双层近邻传播算法迭代的构建整体时间流上的单向事件内容支撑度网络,实现代表性新闻的分层增量采样,进一步考虑以最大相似度划分策略实现代表性新闻上的整体新闻流数据聚类。实验结果表明,相比于现有相关方法,新方法在大规模新闻流数据上具有显著的计算效率,可提取出新闻流中极有代表性的新闻,以及获得更好的新闻文档聚类质量,其热点事件发现结果与权威机构评选的重大新闻有极高吻合度。
其他文献
高性能计算(HPC)通常是使用一定数量的处理器或通过网络管理集群中的若干台计算机这样的环境来对问题进行计算。并行计算是解决高性能计算问题的其中一种方式,它能让多条指令
本文在SOC可重用设计方法学的理论基础上,提出了基于IP核的可视化设计方法。该设计方法包括可视化IP核管理、可视化IP核调用、可视化IP核配置和可视化模块连接,同时提出了IP
河口沙洲是重要的湿地资源,对于沙洲面积的估算及其演变一直是人们关心的问题。但由于河口地区复杂的动力因素,海洋测绘难以获取河口沙洲Om线海图基面,并且耗时较长、花费昂
现如今,伴随着移动互联网技术的快速发展,计算机高速运行极大地提高了计算、逻辑判断和存储功能等方面的能力。面对电子商务和互联网金融等领域产生的大量数据,在“人工智能
研究癌细胞系对抗癌药物的反应是理解癌症生物学和研发新型抗癌疗法的关键,在癌症治疗中起着至关重要的作用。传统的研究癌细胞系-药物反应方法是基于临床实验的,这是一个时
高效能开展“三助”工作,需要对“三助”岗位进行科学的定位,最重要的是建立完善的管理制度和办法,不仅可以帮助“三助”工作的实施,而且还能节约资源、提高效率。本文运用问
随着语义网技术的不断发展和应用,大规模RDF数据集的使用也越来越频繁,在管理这些大规模数据集时,由于RDF数据集的体积问题,查询和管理的性能会受到很大影响。因此,对于大规
众所周知,除了分子本身的共振之外,表面等离子体共振(SPR)和电荷转移共振(CT)被认为是表面增强拉曼散射(SERS)信号被极大增强的两个最重要的来源。SPR和CT对SERS效应的贡献,通常被
复杂网络广泛存在于人们的生产生活中,该领域研究的一个重要方向是对网络社区结构的划分和演化分析,它有助于认知复杂网络的结构和功能,并对诸如广告投放、信息传播管理、个
窄流道结构紧凑,流道内沸腾两相流动具有较大的换热系数,目前被广泛应用于先进核反应堆的堆芯设计。沸腾两相流动伴随着的汽泡动力学行为极其复杂;窄流道内汽泡生长到与流道