论文部分内容阅读
近年来,随着互联网技术的迅速发展,社交媒体已经不再仅仅限于在线交流,而是渗透到生活中的方方面面。社交媒体包含了海量的、具有丰富应用场景的数据,为研究社会生活提供了新的视角和工具,这是传统社会学所不具备的。为了更好地利用和分析社交媒体数据,面向社交媒体的数据挖掘技术层出不穷。网络结构和内容分析,作为社交媒体分析的两个主要方面,吸引了大量的研究者,产生了许多重要的理论和技术成果。本文从这两个方面出发,结合社交媒体在生活中的应用场景,对其中的关键技术进行了创新性的研究和探索,具体完成的工作和贡献包括以下几个方面:1.提出了一种基于超图的层次化社交网络表示模型,通过组件的增减,可以满足大多数社交网络的建模需求。针对脸书和企业社交网络,用提出的模型进行了建模和案例研究。通过对社交网络结构特性的研究,验证和分析了传统社会学中幂律分布和小世界效应等理论。2.针对社交网络中节点排名问题,结合PageRank和HITS的核心思想,提出了一种基于二部图的节点排名算法。算法能够支持两类节点和多种节点重要性度量方法的情况。将该算法应用到企业排名问题中,取得了较好的效果。通过不同的评价方法,发现该算法具有更好的排名效果。3.针对社交网络链接预测问题中,因训练集负样本数量过于庞大,而导致的训练效率较低的问题,提出了一种基于博弈的链接预测模型,通过网络生成博弈模型和其他加速策略,该方法能够在保证良好预测效果的同时,极大地降低训练集中的负样本数量,从而提高训练效率。实验结果表明,在多种社交网络和图数据上,该算法获得了比同类型方法更为优异的表现。4.针对社交媒体中事件的特征提取问题,提出了一种基于事件的主题模型,不仅能够提取事件的主要话题,还能够对事件的类别特征进行提取。基于模型抽取的特征,并结合新闻和社交媒体,对相关网络事件进行了深入的分析。利用提取的特征,对事件进行分类,其结果表明了这些特征的有效性。5.针对社交媒体中不可靠内容识别、分类和分析问题,提出了基于逻辑回归和深度学习的两种不可靠内容分类器,以及一种不可靠内容的新分类方法。首先,进行了假新闻识别,逻辑回归和深度学习模型分别展现了在不同分类任务中的有效性。由于逻辑回归模型较好的可解释性,基于逻辑回归模型提取的特征对假新闻的语言风格、情感、主观性等进行了分析。其次,新提出的分类方法能够将不可靠内容目的和可靠性评分结合起来。同样,基于逻辑回归和深度学习模型,对不可靠内容进行新分类下的识别和分析,并结合社交用户反应,获得了新的发现和模式。综上所述,本文所研究的社交媒体中网络和内容分析的关键技术,对于面向社交媒体的数据挖掘和分析工作有重要的理论意义和应用价值。提出的新模型和方法,能够被应用在实际系统中,获得更高效、准确的结果。对社交媒体中事件、假新闻等热点问题的探讨,为深入理解和解决这些问题提供了参考。