基于海量查询日志的数据挖掘及用户行为分析

被引量 : 13次 | 上传用户:mingliqq
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网和搜索引擎技术的飞速发展,Web中包含的信息不断增加,搜索引擎成为大多数用户为获取网络信息的首选。在用户与搜索引擎的交互过程中,产生了海量的查询日志,而且这些日志还在不断地增长。由于日志中蕴含了大量和用户相关的信息,成为很多公司为更好地了解并吸引更多用户的重点研究对象。利用分布式技术存储并计算海量日志,使得对查询日志的研究变得更加方便。如今各大互联网公司都越来越重视自己的查询日志,期望通过对这些日志进行及时、精确地分析和挖掘来发现隐藏在日志中的用户行为特征,以此来提高用户使用搜索引擎时的满意度,提升企业的市场竞争力。本文以海量查询日志作为处理对象,主要进行的工作有:(1)对日志预处理技术的研究。主要研究了数据清洗、用户识别、会话识别、路径补充和事务识别以及相关算法,并将分布式技术和算法相结合,实现了基于Hadoop的日志预处理过程,为后面数据挖掘做准备。(2)设计用户日志挖掘系统。考虑到日志海量的特点,传统的数据存储和计算方法难以适用于搜索引擎用户行为分析中。针对此问题,本文提出基于MapReduce编程框架对海量日志进行挖掘的思想,根据日志中记录的用户查询词、点击的URL和标识用户身份的ID对用户行为进行建模,将用户行为用特征向量来表示,给出不同用户相似度的计算公式,分析了K-means算法分布式化的可行性并给出详细的分布式实践步骤。实验证明,该算法能够有效的对用户聚类,并在处理海量数据时表现出较好的性能。(3)对用户行为进行分析。主要分析了日志量、用户量及两者的关系;用户查询词的数量、长度、字符组成、常用查询词;被点击的URL总量、URL的深度、常用URL;搜索引擎返回结果的顺序与用户点击的顺序之间的关系。经过对日志的多角度分析,得出用户行为的特征,从而为以后改善搜索引擎和用户之间的交互体验提供参考依据。
其他文献
苯并吡喃类荧光染料因为具有荧光量子产率高、光稳定性好、斯托克斯位移大及光学性质可调等优点,纺织品的喷墨印花与传统印花及染色工艺相比,可以提高印花精细度并且节能、省水
人类社会正逐步进入“学习型社会”,而“自主学习能力”现代社会人最重要的能力之一。本研究以自主学习理论为指导,研究“学案导学”教学模式在初中化学中应用提高学生的自主
沐浴着改革的春风,中国的政治、经济、文化在短短的三十五年发生了翻天覆地的变化。腰包变鼓了、生活变富了的中国百姓开始愈发追求精神世界的小资,而意蕴丰厚、兼怀天下的公共
目的研究非小细胞肺癌(NSCLC)患者外周血辅助性T细胞17(Th17)细胞、调节性T细胞(Treg)及其相关细胞因子[白细胞介素-17(IL-17)和转化生长因子-β(TGF-β)]的变化。方法 82例
进入21世纪,人类加快了向现代社会迈进的步伐,国际间的交流不断加强,竞争日趋激烈,然而这些竞争的实质其实就是各国人才之间的竞争。为了应对日趋激烈的国际竞争,中国提出了
小招隐馆谈艺录卷二论宋代诗派宋初之诗承晚唐,格调为西昆体。杨亿、刘筠、钱惟演、李宗谔以下凡十七人,有《西昆酬唱集》,负其博丽之才,求工巧于字句、对仗,剪彩雕虫,砌石补
随着国内经济实力的不断增强,人民物质生活水平不断提高,消费者对生活品质提出了更高的要求,表现在饮食方而,追求纯天然、无污染的绿色健康食品成为新时代饮食文化的主旋律,
高铁是国民经济和社会发展的产物,具有极大的商业价值,实现高铁商业化具有重要意义,以峨眉山高铁站片区为研究对象,在分析片区现状后提出几点商业开发建议,以期为高铁站片区
由于我国在营业转让问题上没有明确的理论及法律依据,导致在实践中出现很多的纠纷。本文旨在通过分析个体工商户营业转让中比较有争议的几大效力问题,对个体工商户的营业转让规