健康类社交媒体不实信息检测方法研究与应用

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:epippo
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着移动互联网的蓬勃发展,人们越来越多地通过网络社交媒体便捷快速地获取和传播各类信息。由于其门槛低、监管松、可牟利的特性,社交媒体平台成为不实信息制造和传播的“沃土”;日趋老龄化的社会人口对养生保健信息存在巨大需求,健康相关领域也因此成为不实信息泛滥的重灾区。本文依托于中文文本分类、机器学习和深度学习技术,以实现虚假健康类社交媒体信息的检测和识别为目的,利用网络爬虫采集的健康类媒体信息数据,分别设计并搭建基于机器学习和基于深度学习的健康类不实信息检测框架,并进行实验验证。本文主要工作和创新点如下:(1)构建了包含4381篇网络文章的健康类社交媒体不实信息检测数据集。一方面,利用Python语言编写网络爬虫采集健康类真实信息,包含了来自科普中国健康版块、丁香医生科普版块和果壳网健康话题相关的网络文章,另一方面,利用微信辟谣助手、微博谣言等采集了包含健康类虚假信息的网络文章,并对两部分数据进行整合、筛选和清洗,方便了后续研究的开展;(2)设计了基于机器学习特征扩展的健康类不实信息检测方法。从写作风格、主题倾向和特征分布三方面对比分析健康类真实与虚假信息差异,分别构建共现关系扩展特征(cooExt)、标题骗点击模式扩展特征(cliExt)和内容语义统计扩展特征(staExt),利用三类特征和文章标题向量表示训练朴素贝叶斯、k最近邻、SVM和决策树分类器完成健康类社交媒体不实信息检测任务,并设计实验证明上述扩展特征能够在训练数据较少的情况下极大提高分类性能;(3)设计了基于深度学习特征融合的健康类不实信息检测方法。利用doc2vec将整篇文档表示为文档向量,输入三层卷积神经网络提取局部特征,同时采用长短时记忆网络(LSTM)提取语义特征、注意力模块强化语义特征,两路特征融合后接入全连接层和softmax层完成健康类社交媒体不实信息检测任务,并设计实验证明所融合的特征能够提升深度学习模型的语义特征提取和强化能力,从而提高分类性能。
其他文献
泰国作为全球汉语学习者最多的国家,学习者“低龄化”现象显著,幼儿汉语教学近年来得到了快速的发展。幼儿学习者由于认知水平发展的局限,较成人更加依赖于教师使用的教学方法,但目前针对泰国幼儿汉语教学法的研究较少。本文运用课堂观察法、问卷调查法和案例分析法对泰国志愿者教师幼儿教学法的运用进行调查,结合自身在泰幼儿教学经历,详细分析了泰国幼儿汉语教学的现状和志愿者教师运用教学法的问题。通过收集幼儿教学一线课
聚集诱导发光(aggregation-induced emission,AIE)是指有机分子聚集后荧光增强的现象。从AIE概念提出至今,科研人员发现并报道了大量的AIE分子,并且在细胞成像、有机光电器件等诸多领域进行了广泛的应用。目前,已知的大部分AIE分子都具有典型的螺旋桨结构和定子共轭体系,其发光机制可以归结为分子内运动受限(RIM)机理。近年来,文献报道还了一些非典型螺旋桨结构的AIE分子,
稀土元素与过渡族金属形成原子比1:2的金属化合物为Laves相化合物。RCo2(R=Rare earth)化合物因为显示了丰富的磁性,自19世纪60年代以来引起众多研究者的研究兴趣。本文针对Laves相化合物着重做了三个方面的工作:一、通过轻稀土的取代,以期找到轻稀土与重稀土在化合物RCo2中的成分临界点,研究化合物在此成分时的相变类型和磁热效应。二、研究了在低温下轻稀土与重稀土混合掺入RCo2中
随着深度学习在医疗影像处理中的发展,深度学习方法已经成为医学成像领域应用中辅助诊疗的工具之一。腿部疾病最佳的成像方式是具有高分辨率的MRA图像,准确的小腿动静脉分割对小腿动脉疾病的评估至关重要。MRA数据的人工分割需要大量的人力资源,增加了医生阅片工作量。本文拟解决上述问题,基于两种成熟的深度学习网络进行了改进,分别在小腿动静脉MRA数据集PAVES上进行了对小腿动静脉的分割任务。首先,本文分三步
随着互联网信息技术的发展,物流系统由辅助商品生产销售的后勤服务系统逐步发展完善为独立的供应链信息系统。在经济全球化背景下,港口物流是跨境贸易流程中至关重要的环节,利用港口存货、配货、集疏运条件提供多功能物流服务。国际供应链的发展使港口物流全链条产业逐步细分,各部分效率显著提高。但经研究发现,目前港口物流行业主要存在数据孤岛、信任缺失、流程协同低效和中心化平台瓶颈等问题,阻碍各方合作协调和数据共享,
人脸识别技术为人类身份识别提供了一个简单、易行、可靠性高的方法,在人脸解锁、刷脸支付、门禁应用、车站机场安检等众多场景中得到了广泛的应用。人脸特征模板保护即通过某种方法对人脸特征进行保护,在不降低人脸特征模板认证的前提下,保护用户的人脸隐私信息。由于人脸特征模板是唯一且不可更改的,人脸特征模板信息一旦泄露会严重威胁到用户的个人隐私。这也意味着,如何保证人脸识别模板的安全性变得尤为重要。目前,深度学
皮肤病是人类最常见的疾病之一,以黑色素瘤为代表的恶性皮肤病变有着极高的致死率。黑色素瘤治疗的关键在于早期发现和治疗,但是早期黑色素瘤易与皮肤良性病变中的黑色素细胞痣和脂溢性角化病相混淆,造成治疗延误。目前临床上皮肤病的诊断主要依赖医生的肉眼观察和临床诊治经验,缺乏科学量化手段。皮肤病变计算机辅助诊断系统可以帮助医生对病情进行分析和判断,提高医生诊断效率并减轻工作量。针对皮肤镜图像训练数据不足、类间
硫化氢(H_2S)是人体中仅次于一氧化碳和一氧化氮的第三种内源性气体递质分子,易溶于水。生理水平与毒理水平之间的硫化氢浓度范围小于两个数量级,对生物体健康威胁极大,因此,实现H_2S高效检测具有重要意义。荧光分析技术具有选择性好、灵敏度高、操作简单、检测速度快和适用于细胞及活体成像等优势,在微量H_2S检测方面引起研究者的广泛关注。受荧光材料和探针水溶性等因素的制约,H_2S荧光探针的实际应用价值
GDP数据的质量是很重要的。对于国家与地方GDP数据的匹配问题,本文先采用分配法,设计了6种不同的分配方案,然后采用Monte-Carlo模拟的方法,通过比较,得出了效果最佳的分配法
随着人工智能领域的崛起,机器人研究的不断深入,智能机器人逐渐开始融入人们的日常生活。同时,消费者对智能机器人高效率、高质量、低能耗的要求也日益凸显。为此,本文从多机器人协作探索算法与路径规划算法入手展开研究,不仅提高了多机器人协作的质量,也为智能机器人路径规划提供了新的思路。首先,为了进一步提高多机器人探索的效率,提出了一种基于快速随机搜索树-广度优先搜索(RRT-BFS)的边界探索算法。针对现有