面向暗网的用户画像构建技术研究与应用

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:shall202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,为防止匿名用户在网络中进行散布不实信息,损害他人名誉或煽动恐慌情绪等网络犯罪行为,保护和引导健康的网络环境,网络安全法新增了网络用户实名制的规定。然而暗网目前仍然处于国家网络安全监管的盲区,大量不法分子利用暗网穿上“隐身衣”,进行各类非法行为。因此在“看不见摸不着”的暗网中挖掘用户信息,构建出暗网用户画像对暗网监管具有重要意义。目前针对用户画像的研究大都只面向表层网络的用户,但在匿名、隐蔽、结构性弱的暗网中,用户画像的相关研究极少,构建出较为丰富用户画像更具有一定困难。本文将面向暗网,针对如何获取用户数据,通过稀疏的信息构建出暗网用户画像这一问题进行研究并加以应用。本文搭建了基于Tor的暗网采集系统,获取用户在暗网中留下的用户信息、交易记录、社交言论等数据,通过部分暗网用户标识对用户数据进行关联扩充。将数据清洗后,在中英两种语言的暗网用户数据集上提取用户特征。对结构化数据进行解析,针对非结构化数据建立暗网关键词词库,结合命名实体识别、实体关系抽取等自然语言处理算法,得到由基本信息,社交行为,市场交易三个维度的用户基础属性构成用户的基础画像。为进一步挖掘用户属性,改善暗网用户属性过于稀疏的缺陷,通过建立适用于暗网数据的情感分析、立场分析、影响力计算、活跃度计算、商户销量预测等算法模型对用户的各类特征标签化,将用户基础画像扩充为深度画像。应用文中得到的暗网用户画像,基于用户画像的相似度,优化Louvain聚类算法实现了暗网用户虚拟群体的发现。本文构建出包含21个用户属性的暗网用户画像,包括5个基本属性,8个社交属性以及8个交易属性。对用户属性的准确率进行分析,均好于近期相关研究应用于暗网数据集的效果。
其他文献
目的对透射比浊法检测免疫球蛋白结果进行评价。方法根据NCCLS EP9-A文件要求,收集40例临床血清标本,分别用Immage特定蛋白仪(使用配套原装散射比浊试剂)和C8000全自动生化分
哈尔滨近代的建筑发展史中,由于殖民侵略,出现了中西方建筑交融的现象。哈尔滨作为最先被殖民侵略的城市,最先出现了中西方建筑相结合的产物——"中华巴洛克"。这是中国建筑
本文利用河北省农村居民收入和消费支出的基本数据,用典型相关的分析方法,分析了河北省收入与消费之间的关系。在此基础上提出了如何增加农民收入,进而提高农民生活消费水平
本文详细介绍了草莓避雨基质育苗实施细节,从育苗方式、具体工作时间安排、材料准备、管理措施、养分及水分管理、育苗过程中注意事项及壮苗标准等方面介绍了草莓基质育苗技
<正> 要使机床导轨副按照导轨精度要求达到良好接触性能,采用配磨工艺是比较新颖的加工方法。通过多年实践现已有了较成熟的经验。不少厂根据自己的生
目的观察高血压患者血尿酸及血脂水平的改变及其临床意义。方法检测176例原发性高血压患者和238例健康正常人的血尿酸及血脂。结果高血压组血尿酸显著高于对照组(P<0.01),甘
针对多属性、多准则的机械方案优选权重难以确定的问题,提出权重分配的神经网络模型,使权重的确定较为客观准确,并具有自学习功能。
谚语是是一个民族智慧的精华所在,它们反映了文化和语言的关系。作为一种特定文化背景的产品,谚语与一个国家的文化是密切相连的,并且具有伟大的文化价值。它们反映出一个国
<正>案例主题:学生积极参与教学,集中体现了现代教学理念:阅读——质疑——合作——拓展。案例背景:文言课文是我国民族文化的一种载体,作为传承中国文化,吸收民族文化精髓的