论文部分内容阅读
近年来,为防止匿名用户在网络中进行散布不实信息,损害他人名誉或煽动恐慌情绪等网络犯罪行为,保护和引导健康的网络环境,网络安全法新增了网络用户实名制的规定。然而暗网目前仍然处于国家网络安全监管的盲区,大量不法分子利用暗网穿上“隐身衣”,进行各类非法行为。因此在“看不见摸不着”的暗网中挖掘用户信息,构建出暗网用户画像对暗网监管具有重要意义。目前针对用户画像的研究大都只面向表层网络的用户,但在匿名、隐蔽、结构性弱的暗网中,用户画像的相关研究极少,构建出较为丰富用户画像更具有一定困难。本文将面向暗网,针对如何获取用户数据,通过稀疏的信息构建出暗网用户画像这一问题进行研究并加以应用。本文搭建了基于Tor的暗网采集系统,获取用户在暗网中留下的用户信息、交易记录、社交言论等数据,通过部分暗网用户标识对用户数据进行关联扩充。将数据清洗后,在中英两种语言的暗网用户数据集上提取用户特征。对结构化数据进行解析,针对非结构化数据建立暗网关键词词库,结合命名实体识别、实体关系抽取等自然语言处理算法,得到由基本信息,社交行为,市场交易三个维度的用户基础属性构成用户的基础画像。为进一步挖掘用户属性,改善暗网用户属性过于稀疏的缺陷,通过建立适用于暗网数据的情感分析、立场分析、影响力计算、活跃度计算、商户销量预测等算法模型对用户的各类特征标签化,将用户基础画像扩充为深度画像。应用文中得到的暗网用户画像,基于用户画像的相似度,优化Louvain聚类算法实现了暗网用户虚拟群体的发现。本文构建出包含21个用户属性的暗网用户画像,包括5个基本属性,8个社交属性以及8个交易属性。对用户属性的准确率进行分析,均好于近期相关研究应用于暗网数据集的效果。