基于群体画像的网络演化分析

来源 :东南大学 | 被引量 : 0次 | 上传用户:zhoulijun
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在线社交软件的普及使用正在重塑人们的交流表达方式。人们不再满足于在线下加入能让自己产生归属感的群体或兴趣社团,而将注意力转移到了加入在线网络群体。在线社交网络中,一些有着相似属的个体倾向于形成群体。绘制群体画像为用户决定是否加入一个群体提供了先验知识,另一方面群体画像有助于理解群体的形成与演化。现有对群体画像的研究多局限于采用特征统计或基于概率模型的方法,缺乏对生成画像维度的语义多样性进行检验;而现有对群体演化的研究多局限于从拓扑结构的角度出发获得群体演化的模式,缺乏结合群体语义特征解释群体演化的原因。因此本研究基于上述现状存在的不足,设计基于主题子群体的细粒度群体画像模型,通过融合子群体特征并设计算法保证生成群体画像维度的多样性。最终联合群体画像与群体拓扑结构特征分析群体演化的过程,本文具体工作如下:首先本研究以社交网络中存在的显式群体为研究对象,基于豆瓣网,编写爬虫抓取豆瓣小组在一定时间段上的话题发布信息和话题回复信息,作为绘制群体画像的数据来源,同时获取小组成员间的关注关系数据,用于构建网络拓扑。其次,本研究提出主题子群体发现模型,通过提高子群体内成员内容的同质性量化子群成员对子群的贡献。该模型采用动态词嵌入技术与主题模型解决了短文本内容主题难以挖掘的问题,并根据主题分布的相似性划分主题子群体。在此基础上,本文提出一种改进的混合概率模型以解决网络词汇造成的一词多义问题,并提取出子群体特征,通过融合子群特征与设计特征筛选算法保证群体画像的维度多样性。最后,本研究筛选出一定数量的活跃成员,通过问卷调查,要求成员在不同时间粒度下对豆瓣小组进行关键词描述,并基于这些关键词构建豆瓣小组群体画像的ground-truth。通过将本研究的群体画像模型与现有研究中的群体画像模型进行对比,得出结论:本研究提出的基于主题子群体的群体画像模型在画像准确性,画像维度多样性上均优于现有模型。此外,本研究基于不同时间粒度,通过展示群体画像和群体的网络拓扑特征量化群体的演化过程,并通过群体画像合理分析群体演化的原因。基于上述的实验结果,本研究设计并实现了群体演化展示原型系统。
其他文献
基于知识图谱的问答系统(KBQA)应用越来越广,用户提出的问题也更加复杂,通常包含多个查询意图,需要进行逻辑,定量,比较等聚合型的推理运算。语义解析方法是一种实用的方法,旨在将复杂的自然语言查询转换为机器可执行的逻辑形式(logic form,LF),再通过模块化的符号执行得到最终答案。训练语义解析模型通常需要大量专家标注的“黄金(gold)”逻辑形式。但是在实际应用中,获得这种逻辑标注的成本很高
背景:在过去十年中,埃博拉病毒病(Ebola Virus Disease,EVD)在非洲反复暴发,包括2014-2016年在西非的暴发以及2018-2020年在刚果民主共和国的暴发。这些暴发导致了不同的病死率和其他社会经济影响。尽管如此,关于该病的风险和影响的文献报道却很少,特别是孕妇和儿童等特定弱势群体的相关报道更是如此。目的:本研究旨在通过文献计量学量化并可视化2010-2019年期间发表的埃
粘胶纤维是再生纤维素纤维的一种,属于生物质纤维范围,是循环经济可持续发展的重要化学纤维产品。近年来国内粘胶行业产能快速增长,同行间竞争加剧,加之政府环保政策逐年收紧,如何提升传统产品的竞争力,加快高新产品的研发,是每个国内粘胶企业所面临的问题。FBE公司主营化学纤维制品生产和销售,整理车间负责将饼丝加工成筒丝,并进行分级、包装、入库工作,其生产管理能力的高低直接影响到公司产品质量的好坏,进而影响公
近年来,越来越多的语音识别应用进入到大家的日常生活中,其中关键词识别是语音识别应用领域必不可少的关键技术之一,而这些应用设备对低功耗和噪声场景下的识别精度要求很严苛,因此本文将提出一种面向高噪声场景的低功耗关键词识别特征提取的专用集成电路模块。本文主要从算法、电路两方面去优化设计,尽可能在保证识别精度的情况下降低关键词识别特征提取的功耗,主要工作包括:(1)基于传统梅尔频率倒谱系数(Mel Fre
语音关键词识别有助于实现更好的人机交互,但是对于低信噪比下的关键词识别性能,目前难以达到理想要求。本文从算法到硬件,实现了一套可应用于低信噪比环境的关键词识别方案。在算法上,实现了卷积加循环神经网络的语音关键词识别算法。第一,本文针对低信噪比的语音关键词识别,将传统的特征提取算法替换成单维卷积神经网络,规避了手工特征提取算法在低信噪比下的性能损失。第二,本文采用定点化量化训练方法,使得权重和数据都
关键词识别技术目前正成为主流的人机交互方式,特别是在可穿戴设备、物联网等应用上十分广泛,而这些移动便携设备对低功耗的要求很严格,故设计一款符合低功耗应用要求的关键词识别产品是非常重要的。基于此,本文提出了一种面向低功耗关键词识别(Keyword Spotting,KWS)的量化卷积神经网络(Quantized Convolutional Neural Networks,QCNN)专用电路模块。本文
目的:比较腹腔镜下胆囊切除+胆总管探查取石术(LCBDE+LC)一期缝合和同期内镜下逆行胰胆管造影联合腹腔镜下胆囊切除术(ERCP+LC)治疗胆囊结石合并胆总管结石的疗效与安全性。方法:收集2015年10月至2018年10月在东南大学附属中大医院接受微创手术的胆囊结石合并胆总管结石的患者资料,共184例,根据手术方法,将患者分为LCBDE+LC一期缝合组(112例)和同期ERCP+LC组(72例)
随着互联网的普及,人们迈入信息化时代,方便、准确获取信息变得越来越重要。问答系统摒除了传统搜索引擎只能利用关键字来定位类别或选项的弊端,可直接根据用户输入提供答案。针对警务应用,现有警务系统并不支持自然语言的查询,仅停留在计算机端操作,并以关键词方式进行查询,无法统一入口,操作繁琐。因此有必要提出一套服务于业务查询的警务问答系统,使警务人员可以基于自然语言问答的方式进行情报获取与案件的侦办。本文通
背景人们可能有80-90%的时间都是在室内度过的,室内空气污染对健康造成的危害是世界性的重要的公共卫生问题。全世界每年由室内空气污染每年造成的死亡人数月为160多万。室内充分的通风是保持室内的空气良好的重要措施,通风不良是造成室内空气污染的主要原因之一。室内空气质量评价的指标有多种,其中二氧化碳就是空气清洁的重要评价指标之一。室内空气污染可导致病态建筑综合症(sick building syndr
桥梁作为国家和地区交通基础设施建设的重要工程结构物,起着交通咽喉要道的作用,直接影响着整条道路的交通运输能力和安全,具有重要的经济、社会和战略意义。近些年来,桥梁混凝土结构的耐久性问题日益突出,较多的现役预应力混凝土桥梁在交通荷载、自然环境等作用下,在使用期发生了混凝土表面开裂、碳化、钢筋锈蚀和混凝土剥落等一系列问题,从而引起混凝土桥梁裂缝或挠度过大和承载能力严重下降。但现有的研究关于桥梁耐久性的