基于用户画像的搜索行为分析

来源 :华侨大学 | 被引量 : 0次 | 上传用户:xqm009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来互联网用户量飞速增长,使得互联网各个邻域的数据量越来越大,如何处理好这些数据就成为了一大难点。而用户画像可以通过对用户数据的分析得到用户的标签化模型,以反映用户的个人属性和特征。搜索引擎是互联网的基础应用,互联网用户每天在搜索引擎中留下大量类型丰富、时效性强的行为数据,如查询词、网页访问记录等,这为分析用户的爱好习惯和个人信息并构建用户画像模型提供了足够的数据资源。企业可以利用这些信息,高效地刻画出互联网中各个群体的用户画像,这有助于企业实现精准营销和个性化服务。但是用户往往在使用互联网的过程中留下的资料是残缺的,给数据分析带来了极大的不便,所以需要使用适合的机器学习算法来预测用户的未知属性,挖掘出用户的隐含信息。目前常用的算法模型还存在较大提升空间,对于高维稀疏的特征其预测效果还有待提高,而融合算法往往能结合各算法的优点,在一定程度上提升预测能力。本文对搜索引擎用户的搜索记录进行分析,以预测用户的静态属性标签为任务,对用户画像标签预测模型进行了分析和对比,其主要研究工作如下:1)提出了用于预测多维用户标签的Stacking模型融合方法,以预测用户画像的三个标签为例,进行实验和分析。该模型为两层结构,第一级模型中使用TF-IDF算法提取用户搜索词特征并用多种分类器训练,同时将Doc2Vec模型构建的文本特征用BP神经网络训练,第一级模型的输出作为第二级模型的输入,用SVM支持向量机进行分类和预测,得到用户的标签信息。实验用该模型与传统模型进行了实验对比,证明了该模型在搜索引擎数据的用户标签预测任务中有较高的准确率。2)实验经过数据预处理、特征工程的构建和模型的训练融合,得到了预测结果,并根据完整的实验数据对用户的搜索行为进行分析,最后还构建了搜索引擎用户画像的可视化示例。
其他文献
针对空间物理过程时空协同探测任务的定量化探测覆盖分析需求,在采用时空相关函数方法描述和分析空间物理时空过程的基础上,提出一种基于θ-t_R覆盖图的探测覆盖分析方法.通
当今社会,教育无疑影响着国家与个人的方方面面,无论对个人发展还是对国家经济社会发展都是举足轻重的。涉及资源配置和利益分配,必然会提到公平。公平是一个价值领域的概念
在快速发展的社会形态下,三维数字技术发展与定格动画两个相对独立的个体也开始相互融合影响。定格动画的特殊性标签在现实时空下的独有创造手段与运用逐格拍摄的特殊方式,形
县域是国家的区域的重要板块,也是体现当地经济发展水平的重要尺度。县域经济是一种国民经济以地域划分的经济形态,在国民经济中凸显着重要地位。较高层次的县域经济发展体现
背景医疗恐惧是住院儿童常见的心理反应。过度恐惧可以降低患儿住院的适应性及对医疗护理的依从性,进而对疾病的治疗和恢复产生影响。众多研究表明学龄期儿童本身人格与儿童医疗恐惧相关,而家庭教养方式对儿童人格的形成起重要作用,同时家庭教养方式作为家庭教育的重要组成部分影响儿童恐惧的发生和发展。探讨家庭教养方式对儿童医疗恐惧的影响,研究儿童医疗恐惧与家庭教养方式、人格的相关性,可以引导家长培养良好的家庭教养方
伴随中国特色社会主义革命、建设和改革伟大实践的发展,中国共产党坚持马克思主义青年观,不断丰富与发展着青年观的思想体系。主要分为改革开放前的积极探索时期与改革开放后