论文部分内容阅读
伴随着互联网技术的蓬勃发展,人们的日常生活越来越离不开互联网和移动互联网,互联网早已成为人们获取信息(如网购、新闻等)的重要渠道。然而,在互联网中,人们所面对的信息呈指数级增长,并且其中大多数都是无用信息,在巨大的信息数据中快速挖掘用户群体的不同特点,构建用户画像,以满足不同用户的个性化需求已成为当前急需解决的问题。本文针对用户画像的构建问题,对两种不同领域的用户画像进行了相关研究:(1)面向电网用户的用户画像构建技术研究电网公司的电费敏感客户往往对由用电引发的电量、电价、电费、欠费等电力服务具有强烈反应。如何快速定位电费敏感客户,对于降低客户投诉率,提升客户满意度,树立供电企业良好的服务形象具有重要的作用。本文在电网用户数据基础上提出了一种多视角融合框架,该框架能够快速、准确的识别出电费敏感客户,构建用户画像。首先,本文对电网用户进行了分析研究,提出利用双通道对不同特性的用户分别建模预测;其次,本文提出了多种特征萃取方法,用于构建用户多源特征体系;最后,为了充分利用多源特征,本文进一步提出了基于机器学习的多视角融合模型。使用该方法在2016 CCF大数据与计算智能大赛“客户画像”竞赛中获得了F1值0.90379(第一名)的成绩,验证了该方法的有效性。(2)面向微博用户的用户画像构建技术研究新浪微博作为国内最大的社交媒体,每天都有大量用户在上面浏览和发布微博。面对海量信息,构建微博用户画像对于舆情监控、广告精准投放、社情民生反映等方面都有着重要的作用。本文针对微博用户画像中的用户年龄分类问题进行了研究。首先进行了多粒度特征体系的构建,根据微博特征种类的不同,分为文本特征和社交特征,接着按照不同的刻画角度将文本特征分为微博粒度特征和用户粒度特征,归纳总结出一系列特征作为预测的依据。然后根据微博特征的粒度不同,本文在卷积神经网络的基础上进行了改进,提出了一种融合多粒度特征的神经网络,使之能够充分利用上一阶段划分得到的多种微博粒度。与此同时,由于不同的模型对于特征的利用程度有所不同,因此在多粒度神经网络的基础上结合多种机器学习模型对文本特征进行特征萃取,融合多模型结果作为最终的输出结果。该方法应用在2016 SMP CUP微博用户画像竞赛的年龄分类任务上,经过验证能够取得良好的效果。