异质信息网络中基于标签的社区发现方法研究

来源 :哈尔滨工程大学 | 被引量 : 0次 | 上传用户:ycdyjlc
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社区发现作为数据挖掘领域的研究重点之一,在多年研究过程中不断发展进步,其研究内容却多以同质信息网络为基础。随着Web 2.0的日趋成熟和Web 3.0概念的提出,网络信息量不断膨胀,其包含的各类数据也正以海量的规模快速增长并长期积累。为了能够高效、准确地在纷杂的网络中挖掘信息,基于异质信息网络的社区发现研究于近年来不断发展并逐渐占据了该领域的主导地位。由于异质信息网络的复杂和多样,其理论概念和相关技术仍亟待完善,如何在异质信息网络中准确地发现社区结构是一个具有重要意义的课题。标签传播算法是社区发现领域的经典算法之一,本文基于异质信息网络中丰富的语义信息对传统的标签传播算法加以改进,设计了基于混合相似性的标签传播算法Sem-COPRA。该方法首先通过LDA主题模型对异质信息网络中具有语义信息的类型节点进行建模,得到其k维隐性语义空间上的语义信息分布向量;通过语义共享方法迭代地向不具有语义信息的类型节点共享语义信息,从而得到整个网络的语义分布向量。随后本文提出了基于节点间的语义相似性以及拓扑结构相似性的混合相似度概念,并以此对网络数据进行预处理并生成加权网络。在该加权网络上,以COPRA算法为基础、根据混合相似度重新定义了标签的从属系数;通过引入节点语义重要性的概念来进一步限制标签传播过程中节点标签的更新顺序,以降低由随机选择带来的不稳定性;并通过语义重要性阈值对标签选择过程进行优化。本文在DBLP和微博等真实数据集上进行实验,将Sem-COPRA和其他若干主流的社区发现算法的社区划分结果进行比较和分析。实验结果表明,Sem-COPRA算法能够适用于各类异质信息网络,具有一定的普适性;并在异质信息网络中能够得到稳定的社区划分结果,和其他社区发现算法相比具有更准确的社区发现结果。
其他文献
【正】“湖畔派”诗人的代表威廉·华兹华斯(William Wordsworth)出生在英国坎伯兰郡的一个律师家庭。中学时期他常常前往学校附近的大自然中嬉戏游荡,结识农夫与羊倌。
<正> 本课题所指的中国东部主要包括海南、广东、福建、浙江、安徽、江苏、山东、辽宁、吉林和黑龙江等十省,涉及到九种土壤类型。 本研究采集了14个发育在玄武岩母质上的土
文化负载词,是表达一个民族所特有事物的词、词组及习语。翻译过程中,文化负载词的存在为译者增添不少困扰。“江湖”作为中国典型的文化负载词,其翻译受词汇本身、译者、翻
对于初中生而言,历史是一门非常重要的学科,它能够帮助学生对世界文明进行更加深入的了解,是学生历史核心素养得以有效提高的关键所在。但在开展初中历史教学的过程当中,许多
基于微带天线的理论,采用HFSS软件仿真,采用8个单元的微带天线,用八功分馈电网络,加上八个引向器,设计出一款用于5G频段的双极化天线。具有产品体积小,增益高,生产简易的优点
对于不同非定常流动问题,采用合适的时间离散方法,可有效提高数值精度和计算效率.本文在总结传统时间离散方法的基础上,对近些年发展的非线性频域法、谐波平衡法、经典时间谱
随着国际交流与合作迅猛发展,社会对外语人才的需求发生变化,英语的听说能力变得越来越重要。通过对赣南师范学院英语专业学生的听说现状、学习方法和对提高听说能力的认识等方
听说学习对英语学习来说至关重要,而高职院校英语专业听说课程的教学目标又是培养学生的交际能力,面对高职教育中英语专业学生听说教学中出现的种种问题,论文从学生自身角度
目的 通过多元化带教工作流程,提高实习护士专科学习效果.方法 NICU为新生儿无陪护重症病房,收治患儿病情危重,监护设备仪器多,实习护士在护理患儿、技术操作中存在诸多问
颅内动脉瘤临床表现多为头痛、眩晕、视觉障碍等。若动脉瘤破裂则会引起痴呆、偏瘫甚至死亡[1]。介入栓塞术是临床上较为先进的治疗方法,可闭合动脉瘤,防止再出血。虽然该方