基于情感交互影响的网络社团检测研究

来源 :天津大学 | 被引量 : 0次 | 上传用户:jitic
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交行为一直存在于人类社会当中,个体之间常常通过相互交流激发思想、碰撞火花、革新技术、解放生产力。伴随着社会的变迁,人们更加懂得团结合作,社会关系也从原始社会单纯的血缘关系进化到现代社会复杂的社会关系,诸如朋友关系、亲戚关系、同学关系、同事关系等。20世纪中叶,由于互联网的快速发展,人们的沟通交流愈发便捷,越来越多的人们更加容易通过网络表达自己的观点、看法,同时人们也会在虚拟社交网络上建立不同类型的社会关系,比如关注与被关注的好友关系,以及转发、接收、点赞等社交行为关系。社会中个性独立的个体以及他们之间的社会关系统一构成了社交网络,在这些网络中独立的个体有自己的爱好、思想、生活环境等,这些因素导致了社交网络中社团的形成,譬如在同一个社团中的个体就更容易具有相同的价值观念、爱好、习惯等,也更容易进行相互交流。本文的目的是通过使用网络中不同类型的信息将具有相同个性的个体更细致的归于统一社团。本文主要研究在线社交网络中的社团结构。具体而言,譬如微博、微信、推特等我们日常生活中接触的软件都属于在线社交软件,其构建的网络通常属于在线社交网络。用户之间会存在多种类的关系,如亲戚关系、同事关系、同学关系、好友关系等,而他们书写的博客等文档被视为用户的属性,文档的引用、转发等可被视为属性的传播,因此社交网络不仅包含了关系信息,还蕴含了丰富的语义信息及其传播信息。通常社交网络中的用户被视为节点,而节点间的关系被抽象成边,社团检测的目标就在于把网络中的节点划分为多个集合,使得集合内部成员联系紧密、社团之间成员联系稀疏。对于真实的社交网络而言,由于其拓扑的复杂性,很难得到最优社团结构,检测精确的社团结构目前是一个很大的挑战。近年来,研究者提出了很多检测社团的方法,按照其利用的主要信息的不同大致可分为四类,1)仅利用拓扑关系的方法、2)融合语义信息方法、3)融合信息传播的方法、4)融合情感信息的社团检测等。首先,仅利用拓扑关系的社团检测方法亦可分为如下几类,譬如:模块度优化、谱图聚类、层次聚类以及基于概率统计学等方法,尤其是一些通过利用节点的原始数据使社团检测结果更加精确的方法,如随机块模型等。然而,真实社交网络不仅包含拓扑信息,还包含大量基于个体用户内置结构的文档信息(如用户的博客等),书写相同语义文档的用户更有可能处于同一社团,因此,同时考虑拓扑信息和文本信息将会使社团检测的结果更加精确。研究者们还发现发布相同或相似内容文章的用户更容易处于同一个社团。同时考虑拓扑和文档信息的另一个优点是:如果丢失单一信息源,另一个信息源也可以用来学习网络中的社团结构,这进一步体现出了社团检测的鲁棒性。目前主要有两种融合网络结构和用户文档的社团检测方法,一种是依托深度学习得到每个文档内容的表征,再通过表征将节点聚类;另一种方法是依托统计模型或深度学习设计端到端模型,同时直接发现社团结构。此外,研究者还发现转发文档的用户更可能与书写该文档的原用户处于同一个社团中,因此研究者还可以通过文档的信息传播更精确的划分社团结构,目前也有几个工作可以根据社团间及社团内部传播信息的差别进行社团检测,从而进一步提升社团检测精度。从另一方面,社交网络中每篇文档不仅包含丰富的文本语义信息还包含大量的情感信息,而情感信息可以更加客观的反映出用户的观点和看法。近年来,也有一些基于情感信息检测社团结构的方法,这时研究人员通常认为书写相同情感极性文档的用户更容易处于同一个社团。由上述分析可见,目前已有的工作大多依靠拓扑、语义、信息传播或情感信息进行社团检测,然而并未考虑情感传播对于社团检测的重要影响。以美国大选为例,一些人支持以乔·拜登为代表的民主党,另一些人支持以唐纳德·特朗普为代表的共和党,这两个社团内部会传播积极的情感并相互促进,但社团间会传播消极的情感而产生大量的冲突,因此,根据社团内与社团间的情感传播机制将更有利于学习真实的社团结构。目前虽也有几个依托情感信息检测社团结构的工作,但是它们仅仅考虑了社团内部而忽略社团间的情感传播,即仅仅考虑了民主党或共和党内部的积极情感,而未考虑它们之间的消极情感,而社团间的消极情感通常被认为对于社团结构的形成是非常重要的。本文的特点就在于不仅考虑了社团内部的情感交互信息,还充分考虑了社团间的情感交互信息,因此,可以从宏观的情感传播层面客观地反映出社团之间情感的交互性质,从而更精确地学习出真实社团结构。此外,本文的另一个动机是应用划分后的社团信息来研究真实网络的情感传播机制。有一种简单的方法可以刻画社团间的冲突和促进,该方法分三步,首先用现有的方法划分社团,然后再统计社团内部和社团之间传播文档的情感极性,最后找到社团间的情感传播规律,但是,该方法忽略了情感信息对社团结构的影响。因此,本文设计了一个合理统一的端到端模型——基于情感传播的社团检测(CSDD)模型,用于依托情感社交网络中的传播机制检测社团结构。该模型收集了一系列譬如用户、好友链接、自发文档、转发文档、情感极性等信息检测出用户所属的社团与文档所属的主题。最终,本文可视化了社团内部与社团间的情感传播,并刻画了社团层面上的冲突和促进。针对上述动机,本文提出了两个基本的概念,即什么是社团情感传播?依靠情感传播的社团检测是否合理?顾名思义,每个文档都包含着情感属性,而情感属性又可表示为不同情感极性,不同情感极性代表着作者对这该内容的看法,如果该情感伴随着文档影响到其他人,我们便认为该情感处于传播状态。事实上,在一个舆论事件中,只有处于传播状态的情感,才会引发更多人地共鸣,才对社团结构的影响更大。然而,通过情感传播检测社团并不容易,难点在于无法有效的平衡拓扑、语义和情感传播的关系。为了实现这一目标,本文设计了图模型并统一刻画了该生成过程,最后通过三个定性实验以及四个定量实验验证了本方法的可行性。另外,本文基于情感传播的社团检测研究还具有非常高的现实应用价值,其除了可以用于商品推荐和好友推荐之外,还可应用于两个实际场景,分别是舆情导向和恐怖分子甄别。1)舆情导向用户在网络中可以随意表达自己的观点,同时借助网络无线传播的潜力影响更多人。当出现一个容易激起人们情感的热点事件后,该事件会成为一种舆论的导火索,如果处理不当,将引发人们大量的负面情绪,形成具有很强破坏力的负面舆论。因此即时的发现善于传播负面情感与低价值观的成员,是具有非常重要的现实意义的。2)恐怖分子甄别网络上容许任何人发表言论,也不乏大量的恐怖组织大肆宣扬“恐怖主义”并利用互联网“招兵买马”,给社会形成了很大的隐患。恐怖主义作为一个组织严密的金字塔形社团组织,同级之间很少交流,这就导致定位高层组织较为困难,本文可以根据情感的传播来准确的检测社团,识别出社团与社团间的交流特征。本文致力于更好地发现社团并分析内置的情感传播内容,但是在很大程度上模型配置的难度被低估了,本文提出并解决如下4个挑战:1)明确区分文档的情感极性:研究社团间的情感传播,必须提前知道每篇传播文档的情感。目前存在的情感分析软件大多依靠情感标签通过神经网络学习其它文本的情感,不适合用于大数据集,因此本文使用无监督Senti Strength软件来识别大数据集文本的情感极性。2)社交网络的异质性:使用异质信息检测社团结构可以使结果更加精确。本文考察了两种类型的边,一个是转发文档的情感边,另一个是用户好友的拓扑边,其中用户好友的拓扑边被定义为异质边。3)主题的独特性:为了进行社团检测,研究者普遍先找到文档的主题或者表征形式,之后直接运用例如k-means等经典聚类算法将相同主题的文档聚类成同一社团,但是这样做是粗粒度的,并没有考虑到主题作为隐变量信息对社团结构的影响,一些具有统计重要性的节点在划分社团时往往会出现偏差。本文通过设计主题和社团隐变量来学习文章的隐藏信息。4)自发文档与转发文档的细微差别:自发文档与转发文档在情感层面是存在细微差别的,往往自发文档表达的情感是更激烈的。而转发该文档的用户并没有体会到原作者的思想,仅仅是受到了情感渲染所致,所以自发文档与转发文档在在表达主题内容上存在的细微差别理应被考虑。为了有效解决上述问题,本文采用有向概率图模型和类贝叶斯方法来表示变量概率的依赖关系。有向概率图模型可以用来推断大量事物所以有着广泛的应用,它可以用于科学、工程学、法学、体育运动、日常决策等。类贝叶斯方法属于概率图模型的一种,用来表示多个变量间复杂的相关关系,本文的模型及求导主要分为三步:第一步,本文设计了一个端到端的基于情感传播的社团检测(CSDD)贝叶斯模型,用来刻画社交网络中拓扑、文档内容、情感传播等显变量与社团、主题等隐变量的关系。本文设计了用户-社团分布、社团-用户分布、社团-自发主题分布、社团-转发主题、主题-词分布、情感传播分布六种分布,并设计了六个先验参数作为这些分布的先验知识。第二步,本文依靠后验概率最大化求取该贝叶斯模型中各个参数和隐变量的值,由于该模型过于复杂且参数之间相互耦合,无法通过EM等方法求得参数,所以需要使用变分或者采样技术来近似参数值。相较于变分推导,采样每一个数据点的时间会较长,导致收敛速度较慢,因此本文选择变分推断技术推断参数。虽然变分参数较难推导,但是参数及隐变量的收敛速度会更快。第三步,本文总结并分析了运行时间及算法复杂度,发现该算法的运行时间随用户数、社团数增长成平方增长,随主题数增长成线性增长,发现其空间复杂度随社团数增长成平方增长,随用户数、主题数增长成线性增长。因为本文考虑了不同社团的传播,必然要与两个社团结构相关,因此运行时间的结果也符合预期。最后,本文使用了两个真实的推特数据集,分别包含了2011年3月份1日至10日和5月份1日至2日的数据,其中2011年3月3日ipad2正式发布,2021年5月1日本·拉登被美军击毙,3月份数据集包含60588个用户,234410自发推特,121659转发推特,63382好友链接以及包含138969个单词的字典。5月份数据集包含13657个用户,42541自发推特,22660转发推特,2650好友链接以及包含22806个单词的字典。具体实验包括:我们采用Senti Strength软件判断每篇转发文档的情感极性,它将文档情感极性分为三类,分别是消极情感、中性情感,以及积极情感。该软件给每篇转发文档进行情感打分,分别是消极情感得分和积极情感得分,其中消极情感得分为负值,数值越小代表该文档中的消极情感越明显。积极情感得分为正值,数值越大代表该文档中的积极情感越明显。我们将两个数值相加,得到该文档下的最终情感极性,如果数值等于0为中性情感,小于0为消极情感,大于0为积极情感。我们用导电率、膨胀率、模块度作为社团检测的计量分析工具,其中导电率反应划分好的社团内部边和外部边的比例,膨胀率反应划分好的社团内部节点和外部边的比例,它们的结果越小越好。模块度运用了归一化信息(NMI)去衡量算法划分结果和真实结果的重合程度,数值越大代表社团检测的效果越好。我们设置了50个社团和50个主题来计算划分后社团的导电率、膨胀率及模块度。本文对比了八个新颖的社团检测算法,这八个对比算法大致可以分为四类:基于拓扑、基于情感、基于语义与基于传播的算法,通过对比不同算法下的各种计量分析值,本文发现了考虑了拓扑、语义、传播模型的实验结果要优于只考虑拓扑、语义信息的模型,它们又普遍优于只考虑了拓扑信息的模型。在大多数情况下,本文的结果都是优于对比算法的,这是因为本文不仅考虑了社团内部的情感传播,还考虑了社团间情感传播对社团结构的影响。在情感爆发的事件中,该算法更容易跟随情感共鸣去捕捉真实的情感社团。本文不仅检测了社团结构,还检测了社团语义性。为了寻找社团语义,本文使用困惑度评价词聚类效果,困惑度的目标在于求得每篇文档下单词的熵,熵值越低,其社团语义的混乱程度越低,文本聚类效果越好。针对困惑度,本文对比了两个考虑传播的模型,发现CSDD模型的困惑度结果要明显优于对比算法,因为情感传播更容易聚合同种情感极性的情感词。本文不仅考虑了转发文档的主题,还研究了该文档作为原始文档的主题,捕获了文档在不同使用环境中的细微差异。本文通过研究2011年5月1日至5月2日推特数据集的社交网络结构,对数据集进行个案分析,首先通过模型得到了主题及社团信息,之后统计了传播中各主题的情感比例,并将社团之间的冲突和促进关系进行可视化,从中发现了一些传播规律,例如每个社团有一个主要主题及一个或多个次要主题,每个主题有不同的情感极性。最终本文得到了关于情感传播的性质,一是社团对不同社团的情感传播存在差异,不可能对所有社团传播相同极性的情感信息,二是信息传播的主题主要取决于接收方关心的主题,其次是发送方关心的主题,三是“恐怖分子”和“电子设备”主题占主导的社团更容易产生并传播积极或者中性情感,而“社交”或者“生活”主题占主导的社团更容易产生并传播消极情感。本文用词云可视化了4个主题的单词分布,每个主题由一个主属性单词表示,这4个主题分别为“社交”、“恐怖分子”、“媒体”以及“电子设备”主题,其中“社交”主题包含“博客”、“推特”、“脸书”、“学校”等社交词,“恐怖分子”主题包含了“本·拉登”、“奥巴马”、“死亡”、“胜利”等与本·拉登被击毙相关的词。“媒体”主题包含了“视频”、“音乐”等词,“电子设备”主题包含了“平板”、“手机”、“游戏”等单词。基于以上研究我们得出如下结论。本文认为用户的社会行为、观点、情感倾向、话题相关性与社团结构之间存在着密切的关系,这些特征为社团挖掘提供了非常重要的线索。本文提出了一种新颖的有向图模型,将用户社团和文档的情感传播等隐藏信息有机的结合在一起,其贡献为:1)由于观点意见和情感倾向与社团、主题高度相关,共同反映了社会特性。本文通过分析社会行为特征,能够准确描述网络结构、网络内容、社团语义和社团互动等内部关联。2)通过定性实验,证实了我们的模型在社团检测和发现主题任务是优于对比实验的,本文提出的模型在社团检测上拥有更高的准确率,并可以依据社团间的情感传播信息更精确的搜寻社团信息和主题信息。3)本文通过个案分析了社团的情感交互方式,研究了社团之间的情感交流机制,并从微观层面细粒度的验证了该模型的正确性。最后,作为社交网络的最小粒度,个体成员的特征驱动着社交网络和社团的形成。本文研究的内容和成果如下:在社会网络个体尺度上,本文通过研究社交网络中丰富的内容来挖掘社团结构,本文考虑了用户之间的直接拓扑关系、用户的表达内容、用户的话题偏好以及用户的情感共鸣。统一刻画生成规则的图模型不仅有助于解释社团的生成机制,还有助于更深入的理解每个社团中的语义信息。本文提出了社团情感传播检测CSDD(community sentiment diffusion detection)模型,通过将网络结构和内容等四种社会交互特征有机结合,不仅可以得到更准确的社团结构,还可以挖掘社团下主题的情感倾向。我们虽然取得了一些进展,但尚有如下问题尚待未来解决:1)虽然考虑静态的情感传播有助于汇总情感的传播强度,但是社团情感交流的过程涉及因素很多,复杂且难以建模。本文未考虑社团中动态的情感传播,情感传播状态随着时间进行演变,在此过程中,社团内部和社团之间也会因为情感传播而分裂或统一,因此,如何分析突发事件下的情感演变是需要重点关注的研究内容。2)尽管本文采用的技术是有向概率图模型,能够有效解释情感传播的机制,但未来工作也可以考虑其它两种模型——马尔可夫和深度学习模型,其中马尔可夫模型较为复杂,但是可以用来表示社团的动态变化。深度学习虽然具有黑盒性,解释力较差,但是利用神经网络提高情感传播的精度并揭示社团结构依然是一个重要的研究方向。3)社团可能会随着情感传播而演化,社团间可能会随着情感促进而融合,亦可能随着冲突而解散,会导致社团的数量也会发生变化,因此确定社团的真实数量是未来研究的首要任务。在今后的工作中,我们会从社团的演化出发,考虑社团数量的变化来更加精确的检测社团结构。
其他文献
有害藻华(HABs)在不同水域环境中频繁发生,严重威胁水生生物、渔业经济、旅游业和人类健康。为减轻HABs的危害,开发应急除藻技术至关重要。本文开发了单宁酸复合壳聚糖改性高岭土与单宁酸耦合二价铁活化过硫酸盐两种除藻剂,用于海水中藻类的有效去除。主要研究内容如下:(1)单宁酸增强壳聚糖改性高岭土对海水中小球藻的去除制备了壳聚糖改性高岭土(CS-K),并表征了CS-K的结构。以小球藻为模型藻,采用单宁
学位
有机太阳能电池作为一种将太阳能转化为电能的新型光伏器件,具有质轻、柔性、半透明、可溶液加工、大面积制备等优势,在可穿戴设备、半透明窗户、建筑物等领域表现出巨大的应用潜力。近年来,有机太阳能电池的能量转换效率取得了突破性进展,主要得益于非富勒烯受体材料的发展。相比富勒烯受体,非富勒烯受体具有较强的光学吸收、易于调控的分子结构和优异的光电性能。目前,基于非富勒烯受体的有机太阳能电池效率已经突破18%,
学位
廉洁文化融入高校思想政治理论课,是助力大学生成长成才,实现课程育人目标的必然要求,是加强思政课程建设,实现课程改革创新的内在要求,是加强思政教师队伍建设,打造德艺双馨的高质量育人教师队伍的现实需要。要在内容上要调整、补充和完善教学内容,准确反映和体现廉洁文化;在形式上要完善教学设计,运用多种方式方法,推进廉洁文化融入课堂教学。在载体上要创新思维,利用实践教学、在线课程等,推进廉洁文化融入的多路径选
期刊
我国社会主义先进文化建设工作开展过程中,高校一直扮演着重要的角色。近年来,廉政文化和理念的融入,为高校的文化建设工作提出了更加全面的要求。积极、全面地推进思想政治教育工作,提高廉洁文化建设水平,对于高校自身的发展来说是非常必要的,同时也是提高教师队伍综合素质,打造优质教育环境的必要保障。作为我党的传统政治优势,思想政治工作的开展是整个高校发展的核心与主要生命线。只有全面地重视思想政治工作,最大限度
期刊
新时代,社会公益类事业单位迎来了巨大的发展机遇。绩效考核与激励措施作为事业单位人力资源管理的重要组成部分,与工作人员的工作水平、人力资源管理效果和事业单位的整体发展息息相关。基于此,文章阐述了事业单位人力资源管理中实施绩效考核与激励措施的重要性,总结绩效考核与激励措施实施过程中存在的问题,提出具有科学性、实效性的解决方法。
期刊
将廉洁教育融入新时代高校思想政治工作体系,是我们党反腐倡廉工作的深入和拓展,是进一步加强和改进高校思想政治教育工作的迫切要求和时代呼唤。深入阐释廉洁教育融入新时代高校思想政治工作体系的历史逻辑、理论逻辑、价值逻辑、实践逻辑,探索廉洁教育融入新时代高校思想政治工作体系的现实路径意义重大。
期刊
文本匹配一直是自然语言处理领域中比较热门的研究方向之一。随着计算机算力提升,神经网络开始成为文本匹配任务的主流手段,一般称之为神经文本匹配。无论是什么样的神经文本匹配模型,目前都遵循一种范式:基于多种特征匹配聚合的框架设计更为复杂又精细的模型。因此为获取更多维度的特征,模型开始越来越复杂,参数越来越多。大多数的模型利用残差结构让模型越来越深,以便获取深层的语义信息。但这种方式有两个局限性:第一点是
学位
思政教育应将立德树人作为核心环节,将思政工作贯穿到教育全过程,切实实现全方位、全过程、全员育人,努力开辟出高等教育的新局面。思政教育与廉洁文化的融合是培育核心价值观的根本要求,是强化廉政建设的现实诉求,是改进思政教育的关键举措,具有鲜明的现实意义。为彰显廉洁文化融入思政教育的价值意蕴,推进思政教育发展,高校应结合廉洁文化与思政教育的内在联系、两者融合的必要性以及存在的问题和原因,探索科学的实践路径
期刊
DNA结合蛋白是一类特殊的蛋白质,其能够和DNA遗传物质相结合,并通过两者的相互作用,参与生物体的各种生物学过程,实现DNA转录、复制等功能,从而对生命体的各类生命活动进行调控,而且它与一些人类疾病的产生有着密切的联系。因此对DNA结合蛋白的识别研究,能够帮助我们更好地理解核酸和蛋白质之间相互作用的原理,相信在不远的将来能够帮助医学工作者们确定一些相关疾病发病的原因及内在机理,为人类疾病的研究做出
学位
中国地域辽阔,造就了多样的气候环境,长期暴露在不同气候条件下的居民对其住宅室内热环境的感知适应能力不同,导致热舒适水平也千差万别。本研究在全国五个气候区的12座代表城市内选择了共计157户住宅,开展包括室内客观环境参数的持续监测和主观在线问卷调查在内的热舒适研究,为期一年。研究发现,住宅室内热环境及居民的热感觉、热可接受度和服装调节行为等方面均存在地域差异和季节差异。在冬季,无集中供热的夏热冬冷地
学位