【摘 要】
:
随着网络的普及和移动化,社交网络在人们的社交生活中占有越来越大的比例,由此人们可以在社交网站上获取各类新闻消息。然而与此同时也出现了许多异常用户经常发布各种仇恨言论来对个体或群体进行贬低,并且这些仇恨言论造成不利影响。为了促进社会更加和平、包容和公正,维护社交网络平台的健康性,通过仇恨言论识别方法,发现社交网络中的仇恨言论具有重要意义。社交网络中的仇恨言论识别任务相较于其他文本分类任务而言具有以下
论文部分内容阅读
随着网络的普及和移动化,社交网络在人们的社交生活中占有越来越大的比例,由此人们可以在社交网站上获取各类新闻消息。然而与此同时也出现了许多异常用户经常发布各种仇恨言论来对个体或群体进行贬低,并且这些仇恨言论造成不利影响。为了促进社会更加和平、包容和公正,维护社交网络平台的健康性,通过仇恨言论识别方法,发现社交网络中的仇恨言论具有重要意义。社交网络中的仇恨言论识别任务相较于其他文本分类任务而言具有以下问题:一方面,仇恨言论的文本规范程度不够理想,推文中往往会含有许多表情、俚语和错别字词等,同时仇恨言论对于某些不应有仇恨情绪的词(如人群)的过度提及,这些特点使得神经网络模型在训练中会产生不应当的过度拟合,形成模型的偏差;另一方面,社交网络中的仇恨言论文本长度常常较短,导致语义过于稀疏,模型难以捕获足够的信息。对于这些问题,已有的方法没有很好的解决。因此本文针对上述已有仇恨言论识别方法存在的这两个问题进行研究,主要贡献为:(1)提出了一种基于文本质量和单词分布偏差纠正的仇恨言论识别方法。该方法对数据集中的文本质量(即文本规范程度)和单词分布偏差进行纠正,在不同文本长度区间上,结合文本质量分布差异和单词分布差异,计算出需要补充的对应长度、文本质量且包含单词的非仇恨言论推文数量,并补充对应所需数量的推文,从而达到数据集中文本质量和单词分布的均衡,消除潜在的偏差。通过对比方法实验,在测试集上的预测效果证明了该方法有效消除了文本质量和单词分布偏差,有效消除了模型的潜在偏差和提高了模型分类性能。(2)提出了一种基于语义概念扩展的仇恨言论识别方法。为了克服仇恨言论短文本语义稀疏的问题,该方法在构建分类模型时进行语义概念扩展。模型引入外部知识库补充短文本缺少的语义,通过注意力机制来赋予外部知识中的有效信息更大权重,并且利用基于知识图谱构建的句子级的特征和文本的词袋模型信息对语义概念进行扩展,最后构建文本联合特征表示,用于仇恨言论识别。实验证明该方法语义概念扩展效果有效,增强了模型的仇恨言论识别性能。
其他文献
电力行业作为我国能源领域的支柱产业之一,是关系着我国未来能源战略的重要行业领域。在电力市场化改革取得阶段性进展的同时,电力企业仍然面临着绩效管理效果不理想、人员动力不足的问题,CH电力公司也面临同样的困境。在电力企业改革的关键时期,电力公司的内部成长同样重要。CH电力公司想要拥有高质量的绩效管理,就必须改变管理现状,利用科学的绩效管理方法、合理绩效管理方案,充分挖掘员工潜力,将员工绩效与企业发展业
近年来,随着网络与信息技术的快速演进,推动了工业互联网产业的高速发展,使其成为当前学术界和工业界的研究热点。在工业互联网系统中,由传感器、通信节点、控制器等智能设备组成的通信网络体系,可实现人机间、机器间高效便捷的数据交互,为工业大数据分析、智能化生产提供了重要的底层架构和技术支撑。然而,在当前的工业互联网系统中,工业设备用户普遍存在计算能效性较低问题,且收集的工业数据在传输、处理等流程中存在较高
在激烈的市场竞争环境下,国有煤矿集团公司近些年来显示出种种对市场竞争不适应和竞争能力不足等问题。其中一个重要方面,就是所建立的绩效考核体系不能很好地适应市场经济环境变化。本文以DT煤矿集团为例,对国有煤矿集团公司绩效考核体系的现状进行了研究。首先,本文主要分析调查价值以及背景内容,对绩效考核理论以及国内外实践有关的资料文献展开调查。根据调查结果,明确本文的调查内容和研究方法。其次,本案依据双因素理
随着便携式电子设备及电动汽车对电池续航能力要求的提高,高比能二次电池的重要性愈发凸显。在各类电池储能技术中,锂硫电池凭借其高理论能量密度(2600Wh kg-1),且单质硫储量丰富、价格低廉、环境友好等特质,成为未来储能体系最具潜力的选择之一。然而,多硫化锂的穿梭效应及其缓慢的氧化还原反应动力学,导致锂硫电池存在倍率性能差、循环寿命短等问题,极大地限制了其商业化应用。为解决上述问题,本文从调控正极
目的:口干是鼻咽癌患者放疗后常见副作用之一,严重影响患者生活质量。早期预测放疗导致的口干症非常重要,但目前与此相关的多模态影像组学研究相对较少。本文旨在建立鼻咽癌患者放疗导致口干的早期预测模型,指导临床实践。方法:自2020年5月至2021年8月前瞻性纳入我院经病理证实的鼻咽癌患者。所有患者均接受根治性放化疗。分别在放疗前、放疗第5次(5th)、第15次(15th)和结束时行磁共振成像和扩散加权成
中国印刷品产业有着久远的发展史,其国内划分产业繁多,一般包括出版物业、包装材料业、塑料制品业、纸制品业、电子产品业等,其印制产品一般应用于民众经济社会日常生活的各大应用领域。伴随着我国经济社会水平的可持续快速发展进步与综合国力提高,其印刷的产业规模也一直在持续不断地扩大,并逐步形成了一种以产品知识化、信息化为其主要服务内容之一的高效率并具有能直接影响其全球竞争力特征的工业经济系统。印刷产业发展虽愈
公交车辆是城市居民重要的出行工具之一,公交运行安全性关系到城市交通形象和城市居民的生命财产安。近年来,我国发生了多起严重的公交车辆安全事故,造成了巨大的人员、财产损失。众多研究表明,驾驶员是公交安全事故的最重要影响因素,特别是驾驶员的异常变速行为容易形成驾驶风险隐患,进而引发公交安全事故。因此,如何提高对公交驾驶员异常变速行为的动态辨识水平,构建公交驾驶员风险评价指标,最终形成面向公交运行安全的驾