论文部分内容阅读
随着互联网等信息技术的发展,网络数据挖掘占据着越来越重要的地位,并成功应用于用户行为分析,文档分类,图像分类等领域。分类问题可以进一步分为单标签分类和多标签分类。分类任务中,当分类对象属于多个候选类中的一个类别时,该问题称为单标签分类;当分类对象属于多个候选类中的多个类别时,该问题称为多标签分类。集体分类方法将网络中的边视为同质的,能够对相互连接的多个实体同时进行分类,可以取得较好的分类效果,主要适用于同质信息网络中的单标签分类问题。然而现实世界中,人们经常面临的是多关系网络,网络实体一般同时拥有多个标签,实体间的链接往往代表不同的语义含意,链接的类型多种多样。集体分类无法区分多关系网络中边的异构情况,难以获得较高的分类准确率。多关系网络环境下的多标签分类问题,目前已取得了众多学者的广泛关注,并得到了广泛的研究。已有的方法中,通常都是从网络中随机的选取节点作为训练集,分类结果不稳定,分类精度不高。本文借鉴了主动学习思想,提出了SHDA算法,利用网络的拓扑结构,将网络划分为多个affiliations,从每个affiliation中按比例的选取度数高的节点,最后将选择的节点合并处理后得到种子节点。对种子节点进行预先标注并作为训练集进行多标签分类,能够使得分类算法以最小的样本获得最高的分类精度,提高多标签分类的准确率。现实生活中的网络数据可能存在不完备,不全面的情况,网络数据不一定能真实的反应现实世界中实体间的关系。针对这种情况,我们提出了LP-SCRN算法,使用偶数步的链路预测算法为网络预测出部分缺失链接,然后利用实体间社会特征的相似度为预测出的链接赋予权值,根据归一化后的链路权值,结合实体邻居的标签,实体的类传播概率,使用标签松弛法迭代的计算实体属于各个类的概率,最终预测出实体的标签。LP-SCRN算法将链路预测与多标签关系邻居分类器结合起来,真实数据集上的实验表明,该算法能够提升多关系网络中多标签分类的准确率。