论文部分内容阅读
近年来互联网用户量飞速增长,使得互联网各个邻域的数据量越来越大,如何处理好这些数据就成为了一大难点。而用户画像可以通过对用户数据的分析得到用户的标签化模型,以反映用户的个人属性和特征。搜索引擎是互联网的基础应用,互联网用户每天在搜索引擎中留下大量类型丰富、时效性强的行为数据,如查询词、网页访问记录等,这为分析用户的爱好习惯和个人信息并构建用户画像模型提供了足够的数据资源。企业可以利用这些信息,高效地刻画出互联网中各个群体的用户画像,这有助于企业实现精准营销和个性化服务。但是用户往往在使用互联网的过程中留下的资料是残缺的,给数据分析带来了极大的不便,所以需要使用适合的机器学习算法来预测用户的未知属性,挖掘出用户的隐含信息。目前常用的算法模型还存在较大提升空间,对于高维稀疏的特征其预测效果还有待提高,而融合算法往往能结合各算法的优点,在一定程度上提升预测能力。本文对搜索引擎用户的搜索记录进行分析,以预测用户的静态属性标签为任务,对用户画像标签预测模型进行了分析和对比,其主要研究工作如下:1)提出了用于预测多维用户标签的Stacking模型融合方法,以预测用户画像的三个标签为例,进行实验和分析。该模型为两层结构,第一级模型中使用TF-IDF算法提取用户搜索词特征并用多种分类器训练,同时将Doc2Vec模型构建的文本特征用BP神经网络训练,第一级模型的输出作为第二级模型的输入,用SVM支持向量机进行分类和预测,得到用户的标签信息。实验用该模型与传统模型进行了实验对比,证明了该模型在搜索引擎数据的用户标签预测任务中有较高的准确率。2)实验经过数据预处理、特征工程的构建和模型的训练融合,得到了预测结果,并根据完整的实验数据对用户的搜索行为进行分析,最后还构建了搜索引擎用户画像的可视化示例。