基于同构及异构信息网的虚假评论群组检测研究

来源 :广东工业大学 | 被引量 : 0次 | 上传用户:suishi2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的迅速发展,电子商务平台的出现改变了人们购物、出行、就餐等方方面面的消费方式。阅读评论作为人们从电商平台获得对特定商品信息的重要途径之一,很大程度上会影响阅读者对某一商品的看法,甚至会进一步影响阅读者的行为决策。然而,虚假评论群组通过操控大量电商平台账号或利用返利等各种方式指使个人用户发表虚假评论并从中牟利,极大影响市场的公平性和评论的真实性。随着虚假评论发布模式的迅速发展与变化,针对虚假评论群组的检测研究愈发重要。本文对虚假评论群组检测模式进行了深入研究,分别提出了基于同构和异构信息网的两种虚假评论群组检测算法。基于同构信息网的算法首先通过人工构建用户间的关联特征,设计关联特征规则,然后利用这些关联特征构建以每位用户作为结点的同构用户信息网,再使用聚类方法获取候选群组。基于异构信息网的算法则在构建用户信息网时完整地利用了元数据。异构信息网的多结点类型结构能够最大程度地保留数据集中来自现实世界的语义信息,因此在获取候选群组的过程中能捕获到复杂对象及其关系。本文通过将谱聚类方法分别迁移应用至两种用户信息网络,对同构及异构信息网的关联相似性进行挖掘,获得关联度较高的多个子候选群组,结合现有的虚假评论者和群组特征与本文提出的行为特征对子候选群组进一步分析,发现虚假评论群组。本文基于Yelp数据集完成了同构信息网络及异构信息网络的构建工作。在同构信息网络上利用谱聚类算法,在异构信息网络上通过求解相似矩阵完成谱聚类划分,从而对这两种信息网络进行划分,获得候选群组,实现虚假评论群组检测。本文对虚假评论群组的行为特征进行梳理,提出选用了群组极端评分比、群组重复评论比和群组评分偏差三个虚假评论群组行为特征作为聚类效果评估指标。实验结果验证了本文提出的用户同构信息网络构建方法的可行性,以及本文提出的两种虚假评论群组检测算法的准确性。实验结果也表明本文提出的算法与现有的虚假评论群组检测算法在同一数据集上进行划分比较,效果提升显著。
其他文献
随着互联网技术的发展,互联网几乎融入社会的所有行业,并逐渐成为我们生活、学习、工作中必不可少的一部分。作为当今最热门的Web程序开发语言,PHP语言具有成本低、速度快、可移植性好等优点,被广泛应用到互联网应用开发中。伴随Ruby On Rails出现,PHP也涌现出Laravel、Symfony、Yii等优秀的开发框架,并从开始的模仿逐渐过渡到拥有自己特有的风格。但是当前主流的PHP开发框架还是存
注意力缺陷伴多动障碍(Attention Deficit Hyperactivity Disorder,ADHD)是一种常见的儿童神经发育障碍,表现为注意力不集中、过度活跃和冲动,严重影响儿童的日常学习和生活。目前医生主要依靠临床观察和评定量表来进行ADHD的诊断,定性诊断占比高,使得结果具有较大主观性。由于临床上仍然缺乏客观有效的ADHD量化评估方法,对症状较轻微的患者容易造成误诊或漏诊。近年来
技术就是对给定的单个或者多个文本进行总结概括,得到文本摘要。摘要既要能够反映原文档的主要内容,还要尽可能地保持简洁明了。最近几年,由于deep learning技术的快速发展,文本摘要技术也有了很大的改变,不再是只有传统的抽取式文本摘要技术,而是转变为抽取式与生成式共存的文本摘要技术。当原文档中存在多个主题共存这种情况时,目前大多数生成式摘要方法会对这多个主题的内容进行较为全面的总结和概括,尽可能
随着动漫、游戏、电影等产业的迅速发展,人体三维建模的需求日益增加。但传统建模需要精密仪器的测量,成本高且使用环境严苛。视觉计算的迅猛发展为人体三维建模提供另一种方法—基于图像重建模型,即从图像中获取人体三维空间信息,构建人体三维模型。单目图像重建相较于多目图像,因缺少深度信息,获得三维信息是具有难度的。为解决单目图像重建缺乏三维信息,重建模型只关注姿势而忽略形状,且重建误差较大的问题,结合参数化模
研发远程实验平台的动因源于本文作者为解决本科实验教学工作中的困境,在设备台套数不足及排课资源有限的条件下需要完成课时倍增的实验教学任务。本文作者有多个远程实验系统的开发、部署及运维经验。本文分析两个远程实验案例的开发及其技术演进过程后,提出了如下主要设计思路:以FPGA在线编程为核心,以虚拟化云服务为场景,以虚实结合为导向,实现计算机组成原理实验的云服务化。根据这个设计思路,本文展开计算机组成原理
毕业生的就业去向和质量一向是高校十分关注的问题,就业咨询和辅导也是高校十分关注的任务。高校每年都会存储大量毕业生情况和就业去向,但是通过人为分析这些数据中的规律,任务量非常大而且十分困难,并且会十分依赖主观因素。学生自身也很难应用这些数据。同时,辅导者对学生就业辅导时也会片面关注毕业生的部分特质,很难全面兼顾毕业生的所有情况。辅导者个人多年的从业经验也不易复制,无法大量普及,在面对需求量较大的时期
随着全景视觉在智能交通、视觉监控、VR等领域的应用,对全景图像中的人,车等目标的检测需求逐渐增大。等矩形全景图像是全景图像最常用的表现形式,本文围绕它进行研究。由于等矩形全景图像中存在图像畸变、失真等问题,且不同位置上的失真程度不一,使用常规图像检测方法难以完整地提取出物体的特征信息,造成误检、漏检问题。因此,本文提出使用组卷积网络获取图像子区域特征,从而对图像进行特征修正,并引入多尺度特征融合结
互联网的快速发展已经影响着人们的方方面面,人们的生活工作无时无刻不在使用着网络身份。于此同时,在享受着高度信息化的同时,网络的安全性也面临着各种各样的挑战。对于用户而言,众多的账号密码使得用户面临着密码疲劳、密码复用、中心化插件等问题。传统的网络身份认证机制中,各服务器间相对孤立,安全防护出现了木桶短板问题。良莠不齐的网络安全状态下,薄弱的安全防护便成为了网络攻击者的突破口。针对目前通信孤岛的问题
时态规划和概率并行规划是智能规划中两个不同的前沿子领域。前者规定了每个动作的开始和结束时间点,而后者考虑了动作的不确定性效果和并行执行。对同时具有持续时间、不确定性效果和并行执行等特征的动作的规划问题进行规划求解是困难的,当前还没有方法被提出。本文采用基于模拟计算的框架KarmaRan T(Knowledge based Represent and computational-graph base
在中文医学信息抽取领域,由于实体标注语料匮乏,传统的命名实体识别模型难以达到较好的精度和F1值。因此,在该领域,常用迁移学习和多任务学习来克服标注语料稀缺的问题。然而,在以往的工作中,采用多任务学习的命名实体识别模型在共享任务数据和共享网络层时,会出现一些任务之外的噪声以及忽略了独立于任务之外的交互信息。信息抽取领域通常将命名实体识别任务和关系抽取任务作为两个相对独立的子任务。在关系抽取和实体识别