论文部分内容阅读
社区发现技术可以挖掘网络中的子结构,是了解和分析复杂社会结构的宝贵工具。通过社区发现技术可以揭示原始网络中隐蔽的社区结构,从而分析复杂网络的潜在特征。社区发现的主流算法是基于网络的拓扑结构来探索社区,但是在Facebook等真实社交网络中,由于垃圾邮件或钓鱼账户等异常的连接随处可见,虚假的节点属性和拓扑结构给社区发现带来影响,若不及时发现甚至会扩大谣言或病毒的传播。同时,随着近年来数据信息的爆炸式增长,社区中的特征降维也成为网络中的重要研究课题,近年来引起了很多学者的广泛关注。但是,基于社区降维所开发的大多数算法都利用了经典理论,结果耗费了大量时间却对复杂网络效果不佳。因此,要正确认识社区结构,发现对社区聚类影响的异常点很重要。同时应用高效的数据降维方法对提高社区发现质量具有重要意义。为此,本文提出基于变分自动编码器的社区发现及异常点检测方法。第一,基于图嵌入的方式提出无监督的异常点检测方法,有效结合社区连接结构和属性特征,降低异常点对总损失函数的贡献,从而优化图嵌入总损失函数。第二,基于ktrnss找到社区的核心结构,通过对不同数据集核心结构的搜索可以初始限定k值的范围。一方面保证了社区的核心结构,另一方面也加快了后续K-means和K-medoids聚类搜索k值的速度。第三,为了适应目前不断增长的大型网络,克服“维数灾难”带来的问题,应用变分自动编码器降维,最小化重构误差和KL散度损失求得最优解,与此同时,有效利用本地信息和社区信息训练深度学习模块,获得网络中每个顶点的降维表示。第四,分别基于K-means和K-medoids对得到的低维数据聚类从而获得准确的社区发现。与现有同类型的5种算法依次对比实验,基于Fsame,NMI和模块度Q三个评价指标分析社区发现的质量,在Strike、Football、LiveJournal和Orkut四个数据量悬殊的数据集上得到的实验结果都表现出较为不错的优势。