网络数据的动态半监督分类算法

来源 :清华大学 | 被引量 : 3次 | 上传用户:wd707800502
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络数据的半监督分类模型与算法是大规模数据分析的核心问题之一,在社交网络(Social Network)、引文网络、web数据网络的研究中有重要的理论意义和应用价值。目前,无向网络的半监督分类问题有比较多的研究,但对于有向网络,由于模型和算法的构建存在较本质的困难,因此相应的研究尚较少。 当数据量较大时,有标识(或称有标签)的数据只能是其中比较少的一部分,因此半监督方法是必然的选择。本文以杂志的引用网络为典型问题,借鉴分子动力学方法的思想,提出了动态半监督算法。杂志按其引用关系,自然可视为一个加权的有向网络(或有向图),部分类别明确的杂志被视为有标签的节点。将部分有标签的节点作为种子分布在模拟空间内,杂志间的相互引用自然定义出节点间的作用力,节点在力的作用下产生运动,靠近与其性质相近的种子节点。最终理想状况是非种子点在与其性质相近的种子节点附近达到稳态或动态稳态。 种子节点的选择是半监督分类成败的关键。本文提出层级动态半监督分类算法,通过更新种子节点不断迭代改进。而种子节点的优化要求解一个非凸二次约束的二次规划问题。对此本文提出一个新的判断KKT点全局最优性的条件,并对满足该条件的子类问题给出预处理的局部搜索策略,数值计算结果表明了算法的有效性。 为了将分类结果更好的表达出来,我们对分类结果进行可视化展示。由于杂志数据分类结果重合度高,仅靠分类结果的数据做可视化展示效果不清晰。由于有向网络边的有向性,数据间蕴含着层级结构。我们将分类结果与有向网络个性化的PageRank相结合,对分类结果进行了可视化展示。 本文的创新点主要包括: 借鉴分子动力学模型,提出了动态半监督分类模型及算法;将分类结果与新的杂志节点重要度排序指标相结合,将分类结果可视化展示; 以种子节点选择为目标,提出了更具一般性的二次规划问题全局最优性条件,通过建立二次规划问题的拉格朗日乘子与非负二次函数锥规划之间的等价关系,提出预处理的局部搜索策略来解决二次规划的子问题; 基于种子节点的改善策略,提出了层级动态半监督分类算法,通过求解典型性相关分析的变异形式,选择新的种子节点。
其他文献
QCD在有限温度有限重子数密度和同位旋密度情况下的相结构是理论物理最关注的热点问题之一,它是渐进自由的理论,夸克之间的相互作用随着它们之间距离变小或者交换的动量增加变得越来越弱。QCD包括许多令人感兴趣的方面,例如退禁闭,手征对称性恢复,夸克胶子等离子体,色超导和介子超流等等。通常理论研究的方法有:微扰QCD,有效QCD模型,格点模拟和AdS/CFT对应等。高温低密的QCD行为是宇宙学研究的中心问
根据原子核结构研究的需要,我们根据相对论平均场理论,发展了一个基于球形谐振子基可用于带有形变的原子核的自洽计算的相对论平均场计算程序,通过引入角动量投影方法在相对论平均场的基础上计算具有固定形变原子核的转动谱,这就是相对论自洽角动量投影壳模型(RECAPS)。RECAPS兼有相对论平均场自洽性好,预言能力强和投影壳模型计算组态空间小,物理信息直观的优点。 我们分别在本文
麦田不合理的水肥管理是造成资源浪费、环境污染及土壤微生态破坏的主要因素。本研究是在水氮多年定位试验下进行的,设计为水氮裂区试验,三个灌水处理分别是小麦全生育期不灌水(W0)、拔节期灌水75mm(W1)和拔节期和开花期各灌水75mm(W2);四个氮肥处理分别是施氮0kg hm-2(N0)、180 kg hm-2(N1)、240 kg hm-2(N2)和300 kg hm-2(N3)。研究了不同水氮处
Sasaki-Einstein度量和Sasaki-Ricci孤立子是Sasaki几何中的两类典则度量。奇数维的Sasaki-Einstein流形在超弦理论中扮演着重要的角色,引起了数学家和理论物理学家的研究兴趣和广泛关注。本文从横截Kahler几何的角度,研究了基本第一Chern类可被横截Kahler形式正数倍表示的紧致Sasaki流形上这两类典则度量的存在性问题和刚性问题。主要结果有三个方面:
上世纪20年代,芬兰数学家R.Nevanlinna建立了亚纯函数值分布理论,即Nevanlinna理论.该理论被称为20世纪最伟大的数学成果之一.近100年来,该理论不断完善与发展且被广泛应用到其他复分析领域,如亚纯函数唯一性、正规族、复动力系统、复微分及差分方程等.许多杰出的数学家,如Ahlfors、Cartan、Wittich、Hayman、熊庆来、杨乐、张广厚等都在该理论上做出了重大的贡献.
本文主要研究具有临界指数的椭圆方程解的存在性与动力学性质。首先,我们研究具有临界指数的非线性标量域方程基态解的存在性;其次,我们讨论具有临界指数的非线性薛定谔方程在有界区域中的奇异扰动问题;然后,在全空间RN中,我们讨论具有临界指数的非线性薛定谔方程驻波解的存在与集中;最后,对具有临界频率和指数的非线性薛定谔方程,我们研究其解的存在与集中现象。 第一部分,我们研究临界增长的非线性标量域方程
量子色动力学是标准模型的重要组成部分,它描写的是由胶子传递的强相互作用。不同于高能时的渐近自由,在中低能时强作用物质拥有十分丰富多彩的相结构。其中以颜色解禁闭相变和手征相变最为引人注目。由于颜色在中低能下是禁闭的,所以采用明显色单态的有效模型来进行手征相变的研究是比较方便的。与高能时的微扰论的计算不同,在中低能区量子色动力学是高度非微扰的,这就要求我们在技术上也必须采用与之相符的手段。本文中我们在
水星探测对研究太阳系演化和生命起源具有重要意义。水星是太阳系最内侧的行星,其公转轨道有着不可忽略的偏心率,这就导致环绕水星的航天器会受到周期时变的太阳引力影响。本文特别针对这种轨道动力学环境,对水星环绕轨道的轨道动力学和轨道保持控制等问题进行研究。 当航天器在水星影响球内运行时,本文考虑了来自太阳的椭圆第三体摄动以及水星非球形摄动中的J2,J3项,对环绕轨道的动力学环境进行建模。为研究轨道根
正演数值模拟算法是反演的重要基础,而差分方法又是目前地震勘探领域应用最为广泛的正演手段之一。本文提出了一类新的求解地震波方程的正演差分方法。首先,通过在传统的波动方程哈密尔顿系统中引入位移与粒子速度的空间梯度,建立了波动方程扩充的哈密尔顿系统。然后,针对波动方程扩充的哈氏系统,发展了一类具有保辛和低数值频散特性的数值方法,称为近似解析保辛分部龙格库塔(NSPRK)方法。其后,针对NSPRK方法进行
Mg2+是生命必需的二价阳离子之一,CorA是第一个克隆得到的Mg2+转运蛋白基因,是维持原核生物细胞内Mg2+平衡最为重要的Mg2+转运系统之一,其同源基因广泛分布于细菌、真菌、植物和动物体内,形成了庞大的CorA转运体家族。在前人工作的基础上,本文采用抗体标记方法对大肠杆菌、海栖热孢菌CorA的拓朴性质进行研究;利用电子显微学和荧光光谱技术对大肠杆菌CorA间质结构域(CorA-PPD)的寡聚