跨社交网络用户身份识别关键技术研究

来源 :东南大学 | 被引量 : 0次 | 上传用户:yesw04
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
跨社交网络用户(身份)识别任务是社交网络研究领域的一项重要任务,旨在利用用户在社交网络上的不同维度的信息来判断两个分属不同社交网络的账号是否属于同一用户。跨社交网络用户识别任务能够很好地整合用户信息,这样不仅能够更好地了解用户,甚至可以了解到用户群体背后的区域文化、经济和政治特点等,从而推动世界电子商务和全球经济的发展。跨社交网络用户识别工作在近几年已经受到了广泛关注并且取得了一些进展,但随着互联网隐私政策的不断加紧,以往在用户识别任务中被普遍使用的各种用户私密信息已经难以获取。同时,现有基于传统机器学习算法的用户识别分类模型无法很好地挖掘用户特征之间的相关性,导致无法进一步提高识别准确率。因此,本文针对上述问题,对跨社交网络用户识别任务进行深入研究,并在此基础上实现了跨社交网络用户识别系统。本文的研究内容包括三个方面:(1)本文仅使用极易获取的数据,即利用用户推文文本信息提出了跨社交网络用户识别特征抽取框架。其核心思想在于从用户的内容视角、写作风格局部视角及全局视角充分挖掘用户特征,将用户的推文文本信息映射到特征空间,并通过相似度建模层对用户之间的相似度两两建模。针对中英文语料环境下的多个真实网络数据的实验验证了本文提出的仅基于用户推文文本信息的用户特征抽取框架能够包含更多的有效信息。(2)本文基于上述的相似度特征,提出了基于自注意力机制的卷积神经网络分类模型判断账号是否属于同一用户。首先通过自注意力机制来挖掘不同特征和不同相似度各自的相关性来增强相似度特征的表征能力,其次,使用卷积网络捕捉特征和相似度之间的局部相关性。实验结果表明本文提出的基于自注意力机制的卷积神经网络分类模型能够有效地进行跨社交网络用户分类,同时也验证了自注意力机制在该任务中的有效性。(3)本文深入分析了跨社交网络用户识别任务在实际场景下的应用痛点和社交网络上的用户行为习惯,设计开发了基于两阶段用户识别框架的跨社交网络用户识别系统。具体而言,针对不同用户在社交网络上的行为区别将用户分为普通用户、伪装用户和隐匿用户三类。为了高效解决不同类别用户的跨社交网络识别问题,本文使用了易于获取的用户名信息来构建第一阶段用户识别模型,使用基于用户推文文本信息的用户识别方法作为第二阶段模型。实验结果验证了两阶段用户识别框架能够有效地提升用户识别的效率。最后基于上述算法及框架,本文设计并实现了跨社交网络用户识别系统。
其他文献
同时定位与制图(Simultaneous Localization and Mapping,SLAM)是移动机器人在未知环境下进行自主导航的关键技术,目前已成为国内外学者研究的热点。而回环检测作为SLAM系统的重要组成部分,可以消除移动机器人在长时间运动后位姿估计的累积误差,保证构建出的地图具有全局一致性。本文对回环检测技术中的特征提取算法和相似性度量算法进行研究。论文的主要内容如下:(1)研究了
近年来,随着自动控制技术、通讯技术和机器人技术的不断发展,机器人在人类生活中的应用越来越广泛。单个机器人在某些应用背景下,在感知范围、计算能力、抗干扰能力等方面都有着很大的缺陷。而多个机器人协同合作可以获得更大的感知范围、更高的计算能力和更好的抗干扰能力。因此,多机器人协同合作已成为机器人学发展的新方向。在多机器人协同合作问题中,多机器人编队问题是研究多机器人协同合作的基础问题,多机器人协同对抗则
得益于人工智能理论的进步和计算机硬件水平的提升,计算机视觉技术在近年来得到了快速的发展,与计算机视觉技术相关联的实际产品也逐渐走入了我们的生活。图像识别技术是计算机视觉技术的一个重要的研究领域,其根据识别场景又可分为粗粒度图像识别技术和细粒度图像识别技术。过去几年中,大部分的研究集中在粗粒度图像识别技术中,但受到实际应用场景的驱动,对细粒度图像识别技术的研究得到了越来越多的关注。相比于粗粒度图像识
目的论文选取与口腔鳞状细胞癌(OSCC)密切相关的蛋白标志物(PTM)为目标物,以PTM电化学免疫传感器面临的灵敏度较低、构型单一、固载效果差、检测复杂等问题为切入点,从生物元件固定化活性界面、信号标记物以及免疫检测模式等方面着手,建立系列灵敏度、稳定性和选择性三高的PTM电化学免疫传感新方法,为生物样本中活性分子识别及定量检测提供高效、精密、准确的方法学基础,为痕量标志物检测提供新思路。方法论文
小样本细粒度分类的应用广泛,但是现有的小样本细粒度分类算法正确率较低,分类数量也不多,限制了其实际应用。此外,由于某些任务的特殊性,例如需要生物学家在野外当场对稀有鸟类或其它生物物种进行识别,远程计算的实现难度较大。因此,小样本细粒度分类问题的硬件实现具有很重要的实际意义和广阔的发展前景。本文针对上述两个问题,在算法和FPGA两个方面进行设计和优化,并进行FPGA系统验证。在算法方面,本文通过将元
电耗、氯耗、矾耗是自来水行业制水成本的主要组成部分。其中电耗相对于其它两项而言,占到了制水成本的80%以上。如何以更优的方式来调度水泵,使得在保证安全生产的同时,能实现节能降耗的目的,是供水企业普遍面临且需要长期探索的课题。本文主要研究一泵房(也称原水泵房、取水泵房)的优化调度。通过对生产工艺、主要生产设备知识的学习、熟悉和了解,先对整个系统进行了设计,确定了以“用水高峰补水、用水低峰蓄水”为主要
近些年,随着深度学习算法的发展与硬件设备算力的提升,卷积神经网络逐渐成为计算机视觉领域高性能的代名词,在物联网与边缘计算的应用中发挥着重要的作用。然而,卷积神经网络的高性能以高密集运算及庞大参数量为代价,对卷积神经网络的终端部署带来了极大的挑战。为了深度学习技术的普及,对卷积神经网络的参数压缩及加速运行具有重要的研究价值。本文从挖掘卷积神经网络参数冗余性的角度出发,设计网络加速算法与高性能硬件加速
深度卷积神经网络在图像识别、目标跟踪等领域被广泛使用。在功耗和实时性有严格要求的设备上部署深度神经网络时,需要解决深度卷积神经网络计算过于密集和存储开销大的问题。因此,研究基于算法和硬件协同设计的卷积神经网络加速器有着重要的实用意义。本文总结了卷积神经网络基本结构和常用的卷积神经网络加速器优化方法。针对深度卷积神经网络参数和计算量庞大的问题,本文对网络参数进行量化处理,采用增量量化算法,量化精度为
空间机器人代替宇航员的太空探索活动一直以来是国内外专家学者研究的热点,人类参与的半自主空间机器人遥操作人机交互技术仍是当前空间探测领域的主要手段,但是,空间机器人与操作者之间的信号传输存在着较大的时延,极大地影响了遥操作任务。本文以空间机器人遥操作为背景,旨在削弱空间时延对遥操作的影响,对空间机器人虚拟环境建模相关技术展开深入研究。针对空间机器人的作业需求和遥操作机器人的研究现状,设计并搭建了基于
随着信息技术的高速发展及大数据等新兴业务的出现,用户对更高带宽和规模的网络需求日益提升。为了应对数据中心等核心网络对高速率和网络负载能力快速增长的需求,以太网正向着更高速率的方向发展。随着新一代400Gbps以太网(400GbE)标准IEEE 802.3bs的颁布,下一代移动网络的转型时刻已经到来。与此同时,高速信号的传输也给以太网物理编码子层(PCS)的设计带来了挑战,功能模块的增加使得设计难度