基于行为日志的用户画像研究

被引量 : 0次 | 上传用户:LIKE0610
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,人们在网络中产生越来越多的行为日志,这些行为日志数据来源丰富,能从各个层面提取当前用户的基本特征以及高级特征,用户的这些特征统称为用户画像。多粒度的用户画像不仅能精准表示用户特征,为用户提供个性化推荐,还能扩大用户影响力、实现精准营销等。如何从海量的用户行为日志中构建精准的用户画像,成为自然语言处理研究领域面临的巨大挑战之一。本文以日志分析技术为基础,对日志解析以及日志应用任务开展了研究。在日志应用方面,用户画像任务是本文的研究重点。在构建用户画像时,不仅要挖掘用户的基本特征,如性别、年龄,还需要抽取用户的高级特征,例如人物关系。针对以上问题,本文就日志分析、用户画像的基本特征提取以及关系抽取三个方面进行了研究并提出了相关算法和模型。具体研究内容如下:1.对于日志分析任务,提出了一种日志分析框架,该框架主要包括四个模块:日志记录、日志存储、日志解析、日志应用。其中日志解析是日志分析任务的一大挑战,现有的日志解析算法在准确率和鲁棒性上表现不足,因此设计了一种基于关键词的日志解析算法,该算法首先识别日志消息中的关键词,然后根据关键词匹配对应的日志模板,并计算日志消息和日志模板之间的距离,从而对日志消息进行解析。在公开的多种日志数据集上的实验证明了该算法的有效性和鲁棒性。最后对解析后的日志进行了实际应用,通过统计分析用户在系统中经常访问的网页序列日志以及他们在系统中的操作内容日志来构建用户画像,并为用户推荐感兴趣的人和家谱。2.对于用户画像的基本特征抽取任务,提出了基于多层注意力机制的联合用户画像模型JUHA,该模型利用用户的行为日志,预测用户的年龄和性别特征。现有的用户画像模型仅利用用户的单一特征进行推断,而JUHA首先根据用户的行为数据类型划分为对应的用户行为包,然后利用卷积神经网络模型和词级别、句子级别的注意力机制,提取每个包的特征,记为用户内部特征。接着,根据用户之间的相似行为对用户进行相互关联,形成用户-用户图,利用图卷积网络从用户-用户图中提取用户间特征。最后将用户间特征和用户内部特征融合,联合学习用户的综合特征。根据最终的用户表示,进行用户年龄和性别的预测。在两个真实世界数据集上的实验表明,JUHA模型优于基线模型。3.对于用户画像的高级特征抽取任务,提出了基于关键词和多层注意力机制的远程监督关系抽取模型PCKA,该模型从实体的文本数据包中抽取实体间的关系,但由于远程监督方法的缺陷,语料中包含有大量的噪音数据,并且有些实体包中数据太少,难以抽取有效的包特征。PCKA模型利用多层注意力机制来缓解噪音数据和包信息量少的影响。首先通过实体向量获得近似的关系向量,然后计算句子中每个词语与该近似关系向量的相似度,选择相似度高的词作为关键词,利用这些关键词作为词级别注意力的上下文表示,计算句子中各词语的权重,并结合PCNN模型获得句子的特征向量。在句子模块中,同样利用关键词计算各句子的注意力权重,获得包的特征向量。在包模块中,利用包之间的相似度,将相似度高的包特征融合进当前包中,并利用包级别的注意力分配对应的权重,获得最终的包表示,进而进行关系分类。在广泛使用的NYT数据集上的实验表明,PCKA模型无论在AUC值还是P@N值上都优于现有的远程监督关系抽取算法。
其他文献
随着“互联网+”企业发展理念的渗透,各行业正在探索现代化发展模式,企业所涉及的经营范围逐渐扩大,在纷杂的竞争市场下,传统财务管理理念及工作模式已经无法推动企业顺利升级,严重影响企业全面现代化发展。在产业融合的背景下,企业想要有效扩大经营范围,提升经济效益,就要加强对财务管理工作的创新,深刻了解“互联网+”产业融合为企业财务管理带来的价值,并分析“互联网+”对企业产生的积极与消极影响,制定切实的发展
数据中心作为国家基础设施,在提供大数据AI计算的同时也消耗了大量的电力和水等相关资源。文章从碳达峰、碳中和的意义、行业影响、日常管理、算力设备及应用技术等方面,对数据中心产业的影响进行了分析和介绍,为推动数据中心碳达峰、碳中和工作,提供了一些建议和思路。
综述了热纳米压印、紫外纳米压印、微接触印刷三种具有代表性的纳米压印(NIL)技术的原理、工艺流程和优缺点,并介绍了近几年来纳米压印技术的研究进展及其在光学器件、存储器、柔性器件和生物传感器等领域中的应用现状。
为克服脂肪酸型柴油抗磨剂的性能不足,以丁二酸酐与7-辛烯-1-醇进行酯化反应,合成了一种丁二酸单酯柴油抗磨剂;优化了反应投料比、反应温度、反应时间等反应参数,得到了最佳合成工艺条件;采用红外光谱、高频往复试验表征合成产物的结构和润滑抗磨性能。结果表明:合成丁二酸单酯的加剂质量分数仅为150μg/g时即可满足柴油抗磨要求(高频往复试验钢球磨斑直径不大于420μm),加剂量比脂肪酸型抗磨剂降低40%;
人力资源是当代企业的核心战略资源之一,合理的人员岗位配置,完善的人员梯队建设,优秀的行业人力战略,能够为企业的未来发展提供竞争优势。当前企业人力资源数据的管理常基于关系型数据库或多维数据仓库实现,但由于人力资源统计指标变化频繁,时常会面临统计条件定制复杂、统计效率低等问题。用户画像是一种可以有效描述人员多维特征的技术,将统计条件按照一定规则转化为标签,使得统计值的生成变为多个标签的过滤,可以降低统
地球大气与气候变化密切相关,且影响着人类健康和生态环境,大气监测具有重要意义。大气气溶胶散射辐射的偏振敏感性为光学偏振遥感技术应用于大气探测提供了新思路。结合我国航空遥感系统技术发展和环境大气遥感监测需求,提出了一种航空大气多角度偏振探测方法,突破集束式偏振光学系统设计和偏振定标等关键技术,研制了大气多角度偏振辐射计。首先,介绍辐射计偏振探测原理,讨论光学系统方案设计,分析辐射计多角度探测和定标精
几何类规律问题是中考典型问题,其探究方法及突破过程较为特殊,需从特性中提取一般规律,生成通式类结论.文章以2022年盐城市中考函数与几何规律探究题为例,开展解题突破,进行方法总结,并拓展探究.
发展数字经济是转变经济发展方式、顺应世界发展趋势的必然选择。习近平关于数字经济发展的重要论述孕育于“数字福建”和“数字浙江”的先行探索,贯穿于经济发展新常态和中国特色社会主义新时代的伟大实践,是中国进入高质量发展阶段的重要思想指引。这一重要论述不仅包含以人民为中心的内核,还包含五大发展理念的思想指引,同时也是构建新发展格局的重要支撑。习近平从数字产业化、产业数字化、数字化治理三方面入手,总结出数字
《义务教育语文课程标准(2022年版)》颁布,意味着初中语文课堂教学必须加大改革的力度和深度,变“课堂”为以语文学习活动为中心的“学堂”。新课标背景下构建初中语文活动教学,需要突出学科性、综合性和情境性三个特性,打造体验型、辨析型和综合型三种类型的课堂,注意课前活动难易适中、课堂活动动静相宜、课后活动长短相济三个方面。