基于XGBoost的微博流行度预测算法

来源 :数据采集与处理 | 被引量 : 0次 | 上传用户:bigfish
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全媒体时代的到来和社交网络的发展,流行度预测在舆情监测和数据话语权的争夺上开始发挥重要的作用.现有的流行度预测研究多集中于外文媒体,对以微博为代表的国内主流媒体进行流行度预测是一个新兴且具有挑战的方向.本文针对微博这一国内社交媒体平台进行研究,通过对微博内容及微博用户的特征分析,设计了多种流行度预测方案,同时,提出了一种基于XGBoost的微博流行度预测算法,将流行度预测问题转换为互动值档位分类问题,在分类式框架下将提取融合后的特征用于模型训练,可以较为准确地对有用户信息的微博的流行度情况进行预测.本文的算法在微博流行度预测数据集中得到验证,并且取得了准确率高达85.69%的优越效果.
其他文献
从乙烯选择性四聚催化体系铬配合物的配体结构(双膦胺型配体、乙基桥连双膦型配体、碳-氮桥连磷胺型配体)、助催化剂和反应机理等方面,综述了近年来乙烯选择性四聚领域内的研究进展,指出过渡金属铬配合物在乙烯选择性齐聚中具有高催化活性、产物高选择性的特点,是制备1-己烯、1-辛烯等线性α-烯烃的主要催化剂,配体结构是影响铬配合物结构和催化活性中心性能的关键因素.
通过测试软化点、针入度和延度对SBS改性沥青的性能进行表征.结果表明:使用线型或星型SBS作为沥青改性剂可以显著提高沥青性能.当硫黄稳定剂质量分数为0.2%,SBS质量分数为4%时,改性沥青的软化点、针入度和延度趋于稳定.此外,相较于线型SBS改性,星型SBS改性沥青的软化点稍高,针入度和延度相对更小.
考察了高熔体强度聚丙烯树脂对玻纤增强聚丙烯材料高温力学性能和拉伸蠕变性能等的影响,并进行平板流变分析及材料微观形貌测试.结果表明:随着高熔体强度聚丙烯质量分数增加,材料弯曲强度和高温拉伸强度降低,高温拉伸的断裂伸长率增加;高熔体强度聚丙烯树脂的添加可以改善材料的高温耐蠕变性能,添加质量分数为20%的高熔体强度聚丙烯树脂后,材料在120℃下耐蠕变断裂时间增加2倍.
利用便携式拉曼光谱仪对收集到49个现售饮品或外卖配送饮品的一次性塑料杯盖样品和饮料瓶瓶盖样品进行检验分析,先根据样品外观进行分类,再根据拉曼位移按照成分进行分组,最后再通过计算相对峰高比进行进一步区分,都取得了较好的效果.建立了基于系统聚类的分类模型,利用主成分分析对60%的样本进行了降维和分类.最终被检样本被分为6类,分类效果较好.建立了一种快速无损检验一次性塑料包装瓶盖的方法,通过化学计量学和传统谱图解析方式可以使不同组间、同组不同样品间都可获得区分,可以为公安实际办案提供新的思路与参考.
随着聚丙烯(PP)材料在汽车领域的应用频率逐渐升高,汽车零部件由于受到外力产生的外观问题亟需解决.采用扫描电子显微镜(SEM)和透射电子显微镜(TEM)相结合的方法研究了 PP复合材料在常温下弯折发白的产生机理及其影响因素.探讨了 PP种类、增韧剂种类、相容剂种类,以及色粉含量对PP耐弯折发白的影响.结果表明:选用均聚PP材料、高熔指的增韧剂可以明显降低弯折发白的情况,加入无规共聚PP材料、特殊相容剂,以及增加色粉含量也可以减轻应力发白现象.
人工智能方法的高性能通常需要有充足的数据来训练模型参数.如何在数据量不足的情况下提升模型的性能,即小样本学习,是人工智能领域的重要研究方向之一.本文提出了基于图像插值的小样本学习策略,并在手写数字图像识别任务中验证了该策略的可行性.系统研究了全连接神经网络和卷积神经网络对MNIST和USPS手写数字图像识别的小样本学习性能.计算结果表明,基于图像插值的数据增强方法可以显著提升神经网络在小样本数据中的特征提取能力和学习效率,且选择合适的图像插值缩放系数可以进一步优化神经网络的小样本学习性能.
语种识别的关键是从语音片段中提取有用的特征.通过延时神经网络(Time?delayed neural network,TDNN)可以提取包含丰富上下文信息的特征向量,有效提高系统性能.本文提出一种ECAPA(Emphasized channel attention)?TDNN+对比预测编码(Contrastive predictive coding,CPC)模型的多任务学习语种识别网络.ECAPA?TDNN为主干网络,提取语音全局特征,改进的CPC模型为辅助网络,对ECAPA?TDNN提取的帧级特征进行对
白化是一种能够去除数据各属性间相关性的数据预处理方法.最近提出的二维白化重构方法(Two?dimensional whitening reconstruction,TWR)是一种针对单张图片的白化方法,阐述了TWR方法等价于基于图像列的ZCA白化,即TWR具有去除图像列内相关性的作用;但是图像局部块内的相关性往往远大于列内,因此本文从去除图像局部块内相关性的角度出发,提出了两种TWR的改进方法:基于重组的TWR(Reshaped?based TWR,RTWR)方法和基于块的TWR(Patch?based
障碍人群的问题行为给个体、家庭和整个社会带来了沉重的心理压力和经济负担.为此,本文致力于探索利用可穿戴设备内置的9轴运动传感器结合先进的人工智能技术对障碍人群的问题行为进行感知的可行性,以期防止事故发生,降低看护成本.首先,对采集数据进行分析和预处理,提取共108维特征;其次,在特征选择过程中,分别采用原理性分析和随机森林两种方法,划分为3个特征子集,其目的是在保证识别精度的前提下降低时间开销;最后,采用两种验证方法,利用6种分类器进行评价.实验结果表明,特征融合能有效提高分类器的识别率;特征选择能在较低
频谱数据通常以多维度为特征,例如频率、时间、空间与信号强度等,这为采集以及可视化数据带来挑战.本文通过引入电磁频谱态势来表征信号功率谱密度在电磁空间的分布情况来实现目标区域内的频谱态势感知.目前频谱数据的获取方式通常为在目标区域内布置大量离散分布传感器,这导致采样效率低下,采样成本上升,在资源受限的情况下,上述采样方式并不可取.因此,本文从提高采样效率与降低采样成本出发,提出利用无人机采样实现目标区域内的信号功率数据获取,得到缺损二维、三维频谱态势,进一步提出一种模型和数据混合驱动的电磁频谱态势测绘方法,