【摘 要】
:
在处理海量的商品评论中,虚假评论的检测始终是维护网络环境健康发展不可或缺的工作。尽管先前的虚假评论检测工作取得了很大进展,但由于欺骗性评论的隐藏性和多样性的特点,欺骗性评论的检测依然很困难。针对这一问题,本文提出了一种基于语义分析和PU learning的虚假评论检测模型。不同于先前的工作,为提高欺骗性评论的检测效率,本文创新的提出利用评论间情感强度的不同,通过情感计算来划分改变虚假评论所在数据集
论文部分内容阅读
在处理海量的商品评论中,虚假评论的检测始终是维护网络环境健康发展不可或缺的工作。尽管先前的虚假评论检测工作取得了很大进展,但由于欺骗性评论的隐藏性和多样性的特点,欺骗性评论的检测依然很困难。针对这一问题,本文提出了一种基于语义分析和PU learning的虚假评论检测模型。不同于先前的工作,为提高欺骗性评论的检测效率,本文创新的提出利用评论间情感强度的不同,通过情感计算来划分改变虚假评论所在数据集,使得原本具有隐藏性的欺骗性评论在新的数据集环境中充分被显示出来。本文主要工作如下:(1)针对情感计算中基础情感词典与虚假评论文本信息元素不匹配的问题,构建了基于情感词典的商品评论文本情感计算模型。首先,利用TF-IDF提取具有代表性的候选种子词。然后对得到的候选种子词进行K-means+聚类再次筛选,以确保得到的种子词集代表性。接着,利用标签传播算法对种子词集进行扩充,完成虚假评论领域情感词典的构建。结合转折词词典、程度副词词典和否定词词典共同组建虚假评论检测领域的情感词库。最后,基于构建的情感词库,依据一般句子的规律制定了多种情感计算规则,完成虚假评论文本的情感计算。(2)针对欺骗性虚假评论难以检测的问题,构建了基于情感强度和PU learning的虚假评论检测模型。首先,基于构建的评论文本情感计算模型,计算出给定产品评论的情感值,根据情感值将评论划分为强情感和弱情感两个子集。然后,在子数据集中分别利用随机策略选择少量的可靠正例,利用SPY技术提取少量可靠负例。最后,基于提取的正例和负例样本,构建PU learning算法的虚假评论检测模型。实验结果表明,构建的情感词库的构建和多种情感计算规则的制定,能够更好的匹配情感词,完成评论文本的情感计算。半监督的PU算法依据少量的标注数据集就能很好的完成模型的训练。情感强度的引入不仅使得模型获得较高的虚假评论检测的准确率,而且在欺骗性评论的检测试验中也获得了更好的试验结果。本文的研究可以有效的检测出给定产品领域的虚假评论,以维护电商市场环境的公平,排除虚假评论以帮助用户更好的了解产品信息的真实性,从而做出正确的购买决定。图[21]表[23]参[73]
其他文献
本文针对当下能源节约及环境恶化等问题,将农业废弃物稻壳和工业报废轮胎加工成稻壳灰和橡胶颗粒,经改性后分别作为混凝土的部分胶凝材料和骨料,并掺入适量粉煤灰,研究出一种全新的绿色环保混凝土。依据正交试验法,以不同橡胶组合、聚丙烯纤维掺量、稻壳灰掺量及水灰比为因素,每个因素各取4个水平,研究了四个因素对改性稻壳灰-橡胶-纤维混凝土(Modified Rice-husk-ash Rubber Fiber
随着我国基础建设的发展,地下空间的开挖深度逐渐加大且温度也随着开采深度加大而升高。深部岩体开挖常常处于一种饱水的特殊环境中,其中爆破开挖为深部岩体主要开挖方式之一,在开挖过程中深部岩体会受到冲击荷载作用。地下岩体大部分都是处于浸水状态,而且不同深度对应水的温度也不同。因此,开展温度-水耦合作用下砂岩的动态力学性能试验研究具有重要的工程价值。本文以安徽淮南矿业集团顾北煤矿巷道砂岩为研究对象,测试了砂
干湿循环现象在自然界中极为常见,例如河水汛期的涨落、海水的潮汐潮落、库区水位的升降和雨水的降落与蒸发等等。在我国东部沿海地区和西北盐渍地区的土壤和水中存在许多的氯盐,氯盐会对混凝土结构造成损伤,降低混凝土结构的耐久性。夏季河水或者海水表面温度较高,白天水表温度能够达到30-45℃左右,晚上20℃左右,循环往复的昼夜更替类似于把混凝土放在水温变化的环境中。考虑不同水温下的干湿循环作用,研究氯离子侵蚀
随着无人驾驶汽车、增强现实和虚拟现实等技术的快速发展,同时定位与地图构建(Simultaneous localization and Mapping,SLAM)作为其中的关键技术成为了研究热点。根据使用的传感器,SLAM分类不同,相比于激光雷达,视觉传感器成本较低,而且获取的信息丰富,使得以之为基础的视觉SLAM得到了更加广泛的认可和应用。视觉SLAM主要分为特征点法和直接法。特征点法依靠特征提取
近年来互联网用户逐日剧增,网络中的新闻文本数量呈现出爆炸式的增长趋势,如何对这些海量的新闻文本进行高效的分类和管理,已经成为了当下热门研究课题之一。然而,网络新闻文本结构异于普通文本,传统方式将标题作为正文的一部分来处理,忽视了新闻标题的作用,导致分类效果不理想。因此,需要一种适用于新闻文本的文本分类算法对文本进行分类和整理,从中挖掘出有价值的信息。本文基于上述问题,以提高新闻文本分类准确率为目的
采装一体机作为结合物料采集和输送两个功能的工程机械,可以显著的提升物料开采的可持续性、高效性和安全性,在矿业生产中被应用于巷道等狭小空间和露天环境下矿物等散碎物料的采集装车作业。在实际作业过程中,采装一体机工作装置直接与物料接触,工作装置的工作范围、结构强度和疲劳寿命直接影响采装一体机整机的工作效率和工程进度,因此,有必要对工作装置部件的工作范围、结构强度和疲劳寿命展开深入研究。论文以ZWY-18
近年来,我国经济及交通运输业飞速发展,随着每年公路里程的增加,优质集料稀缺问题日益严重,一种性能与传统集料相似的可运用于沥青路面的新型替代品亟待开发。而钢渣作为炼钢副产品,可以作为二次循环利用安全材料且累积堆存量丰富,在这种情况下,将钢渣应用于路面建材,不但解决了优质集料稀缺、钢渣堆积污染的问题,而且符合国际社会秉持的经济环保、资源循环可持续发展战略。试验采用5种钢渣替代率(0%、25%、50%、
赤泥是生产氧化铝过程中排出的固体废弃物,因缺乏经济、有效地利用途径而不断堆积,且带来了诸多问题,如资源短缺、环境污染以及安全隐患等。此外,赤泥中的碱含量较高,当赤泥取代部分普通硅酸盐水泥时,高碱性环境下水泥熟料会造成砂浆力学强度的不利发展。为此,本文提出采用低熟料M32.5水泥胶结赤泥,提高赤泥与水泥基材料的兼容性,利用赤泥中的碱辅助激发M32.5水泥基材料中的辅料,形成复合胶结体系,主要内容如下
为了保证交通安全,必须严厉打击车辆改装、超载超限行为,车辆识别是开展此项工作的重要内容之一,比如:通过轴距检测判断车辆是否被改装。本文通过车辆侧前方拍摄图像检测车辆参数。车辆轴距检测由两部分组成,其一是进行车辆和车轮定位和分类,其二是在车辆定位和分类的基础上进行轴距检测。由于车辆的重叠和由远及近,图像中车辆轴距检测的准确率和鲁棒性仍然是一大难点,针对此问题,本文的主要工作如下:(1)基于YOLOv
行人检测作为计算机视觉领域重要研究内容之一,其任务是判断输入的图像或视频中是否存在行人,并且判断出行人的位置,该技术可与行人跟踪,行人重识别相结合,在智能监控、智慧交通、智能机器人等领域具有大量应用。尽管行人检测在近年来取得重大突破,但是在现实复杂场景下,行人检测算法的性能与鲁棒性仍然是一大难点问题。在影响行人检测算法的诸多因素中,行人尺度变化、光照变化、遮挡是核心难点问题。本文主要针对行人的尺度