【摘 要】
:
随着网络技术的高速发展,信息得以在全球飞速传播,社交媒体逐渐成为了大众获取资讯、交流与互动的重要途径。由于社交媒体使用者众多,每天都会产生大量的数据。然而,这些数据中的大部分信息都是没有价值的,导致用户很难从中获取有用资讯,降低了信息的使用效率。社交媒体账号分类就是从海量信息中识别出具有共性特征账号的过程。通过对账号进行分类,不仅可以有效提高信息获取的效率,还可以将获取的信息应用到诸如推荐系统、问
论文部分内容阅读
随着网络技术的高速发展,信息得以在全球飞速传播,社交媒体逐渐成为了大众获取资讯、交流与互动的重要途径。由于社交媒体使用者众多,每天都会产生大量的数据。然而,这些数据中的大部分信息都是没有价值的,导致用户很难从中获取有用资讯,降低了信息的使用效率。社交媒体账号分类就是从海量信息中识别出具有共性特征账号的过程。通过对账号进行分类,不仅可以有效提高信息获取的效率,还可以将获取的信息应用到诸如推荐系统、问答系统等实际应用之中。现有的社交媒体账号分类方法一般利用账号的属性信息或文本信息构建特征,并采用有监督的学习方法对账号进行分类。但在实际应用中,现有账号分类方法还存在着如下问题:账号有多种信息,但由于实际社交媒体具有噪声大、稀疏性强的特征,单一信息无法完整描述。此外,现有方法由于计算复杂度等问题,往往只能选择一种或几种信息,既没有对多种信息的融合过程进行更多思考,也没有考虑多种类型信息之间的隐含关系,造成信息的丢失,导致最终账号分类效果一般。针对上述问题,本文对社交媒体账号分类方法开展研究,主要贡献概括为如下两方面:(1)本文提出了基于多模态特征融合的账号分类方法。该方法在综合考虑账号自身属性、文本以及账号之间的社交关系这些信息的基础上,提取多模态特征,并使用张量的方式对这些特征进行融合。相比现有方法,本文提出的多模态特征融合的方法可以更好地利用账号的各种信息,获得更好的分类效果。通过实验,本文的方法达到了准确率为93.74%的效果。(2)本文提出了基于异质网络分析的账号分类方法。该方法首先对账号数据中各种类型信息进行建模得到异质信息网络。其次,在卷积神经网络的基础上,提出异质图卷积注意网络,将异质信息网络嵌入其中,并为不同类型的节点分配不同的权重。该方法对于放入的信息类型、数量没有限制,能进一步挖掘账号信息之间的隐含联系,提高账号分类的效果。通过实验,本方法取得了准确率为96.6%的效果,高于以往传统的账号分类方法,证明了本文方法的有效性。
其他文献
随着网络技术的飞速发展,无处不在的移动设备和大量的新兴应用导致了移动数据流量的爆炸式增长。内容分发网络(Content Delivery Network,CDN)作为解决网络流量快速增长的重要手段,为了获得更低的延迟和更好的用户体验,不断将其缓存设备从中心网络下沉到边缘网络当中,我们称这样的内容分发网络叫做边缘缓存网络。新的场景带来新的问题,边缘缓存中,通常缓存设备搭载在基站上,这导致了缓存所能够
随着大数据时代的发展,各行各业都呈现出了数字化、信息化的趋势。由于医疗与民生的高度相关性,所以医疗大数据的发展也越发引人关注。然而医疗数据以其多种难以解决的特性往往会对信息化发展产生制约,这些特性包括不完整性、隐私性、多态性等。并且由于医疗数据是在实际的临床工作中获得的,病人往往会在得病之后才去就医,所以医院得到的各种病症的数据比例必然与对应病症的发病率相关,这会导致医疗数据出现不平衡的情况,从而
近些年实例分割任务越来越多的受到研究者们的关注与研究,但目前为止该任务依然没有达到令人满意的效果,其中大部分算法都无法达到实时性的要求,即使达到实时性的算法也很难具有较高的准确度。为了在工程中使用具有实时性的实例分割算法,本论文在YOLACT算法的基础上进行了相关改进,并在保证实时性的同时进一步提高算法准确度。然后在实例分割算法的基础上进一步研究了行人属性识别算法,并通过实例分割方法解决行人属性识
随着社会与网络的不断发展与进步,自然语言处理领域的各项技术如机器翻译、文本匹配与文本分类等也积极地应用在了现实生活中,并取得了良好的效果。互联网的发展,使自然语言处理领域逐步面对更加现实的数据:这些数据存在大量噪声;数据中的每个样本可能被多个子标签的组合所标记;数据中各种类别之间的样本数量不均衡。而当今社会的发展,正需求对网络文本与网络舆情的监管,那么能够处理这种不规则、复杂数据的方法是十分必要的
脉冲神经网络(Spiking Neural Networks)的发展是对类脑计算的进一步学习和发展。同传统神经网络机制相比较而言,脉冲神经网络会对生物神经元进行仿真,模仿生物神经元的结构,同时在编码方式上融入了时间信息。因此脉冲神经网络同时携带空间和时间信息,可以表达更丰富的概念。目前脉冲神经网络在图像识别,计算机视觉、语音处理等方面有了比较好的算法和简单应用。但是,由于脉冲神经网络的发展历史还比
网络流中包含网络会话中的全部信息,通过对网络流的分析,可以及时准确的获取当前网络运行状态以及发现网络攻击行为,且系统部署代价较低。目前基于网络流的攻击检测系统多是对流量的特征识别分类,没有充分利用网络流数据的层次性结构特征以及网络攻击事件的阶段性特征。为提高分析效率,有效发现APT类攻击事件行为特征,本文首先基于三层次流实体表示结构对网络流特征进行抽取;其次基于模式匹配与深度学习双引擎流量识别技术
近年来汽车行业的发展给人们的生活带来了诸多便利,然而交通带来的隐患也不容小觑,如今对车辆安全性的研究已成为热门方向,为了提高驾驶员驾驶安全性,本文提出了基于深度学习和单目测距的车辆预警系统。预警系统的设计除了需要对预警策略进行科学制定,更需要以目标检测和测距结果作为数据基础,对目标数据的实时性、可靠性要求较高。在目标检测方面当前大部分检测算法难以满足在嵌入式端的速度和精度要求;在测距方面传统的单目
云计算是一种成熟和发展的模式,它可以同时为众多客户提供资源和服务。这些资源以为用户创建虚拟机并在物理服务器上分配这些机器的形式提供。这些服务是在客户询问一些过程时提供的,这些过程由位于云服务器上的服务软件组件执行。为了提高最关键的服务组件的生存与容错能力,服务提供者使用冗余的服务组件计算同一任务。基于投票的N版本编程(N-Version Programming,NVP)是目前流行的冗余技术之一。使
集群系统由物理空间离散分布的网络节点构成,通过集群协同网络实现信息交互和节点协同,具有分布式、高动态、高抗毁等特点。面向多样化动态集群任务,现有的静态分布式网络资源分配方法无法满足多业务融合通信需求。同时,传统网络资源分配算法通常以节点接入公平性为设计准则。而在分布式协同集群应用场景下,面向业务的端到端链路级动态网络时隙资源分配问题值得研究。针对这一问题,本论文研究了集群协同网络动态时隙资源分配关
近年来,伴随着网络技术的飞速发展,网络的规模也在不断扩大,网络的结构变得极为复杂。网络的管理者为了便于更好的监测网络的使用状况并合理的优化网络,必须清楚的了解互联网络的规模及各部分的层次结构。网络拓扑测量通过在互联网中部署多个探测节点,以主动或被动的方式搜集拓扑相关的信息,进而采用统计推断、最优化等手段恢复出网络拓扑结构。网络拓扑测量是很多网络优化、控制和管理等工作的基础,因此是学术界和工业界广泛