基于数据挖掘的移动终端业务数据分析与处理研究

被引量 : 4次 | 上传用户:sherry77677
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,移动互联网的发展愈发迅速,各种产品和技术层出不穷。搜索作为传统互联网时代的一项重要服务,在移动互联网时代展现出丰富的多样性。作为广大网民最常使用的网络服务之一,搜索记录了每个用户每天的使用情况,包括搜索的时间、输入的查询词、点击的链接顺序以及点击的次数等,这些记录了用户每天搜索行为的日志便被称为搜索日志。无论是传统的PC端搜索还是移动端搜索,这种搜索行为每天产生的数据量是巨大的。如何从这海量的数据中分析出有价值的用户行为对后续的搜索引擎优化以及企业发展都具有重大作用。数据挖掘作为当前的一项热门技术,在诸多行业领域中都有广泛应用。它包含四种主要任务,分别是聚类分析、预测建模、关联分析以及异常检测。正是由于数据挖掘技术的这种流行性和广泛应用程度,导致了许多自动化挖掘工具的出现,文中使用的Weka就是目前极具代表性的一种开源数据挖掘工具。搜索日志中所隐藏的潜在模式是一般的统计分析工具无法发现的,因此运用数据挖掘技术对发现这种潜在模式是极为有效的。本文根据上述两个背景,结合传统统计分析技术和数据挖掘技术对搜索日志进行了详细的分析和研究,其中数据来源于搜狗公司所公开的开放搜索日志。在对搜索日志进行了初步分析后,我们设计了一个基于数据挖掘的搜索日志分析系统:在统计分析技术方面,对日志中的Session、Query以及URL字段做了分析,主要是对某段时间的独立用户数量、用户平均搜索次数、热门查询词、最常点击URL等做了统计;在数据挖掘方面,本文利用用户点击这一主动、自发行为,结合凝聚层次聚类思想,使用了一种基于用户点击的查询词邻近度算法,对用户输入的查询词做相关查询词推荐,以提高用户体验。
其他文献
机械采油方式的优选关系到油田生产的综合效益,为了选择出综合效益最佳的机械采油方式。以前期机械采油方式适应性评价优选出的适应性强的初选机械采油方式为对象,首先构建了
以南阳石蜡精细化工厂生产的56#、58#石油蜡为主要原料,通过加入添加剂的方法试制出新一代低温模料-LPM系列精密铸造蜡.工业试验证明,该铸造蜡与原有低温模料相比具有光泽度好、硬度高、强
"治理"概念的出现,意味着政府部门提供公共服务供给思维的转变,公共服务逐渐占据社会治理的核心并成为"元叙事"话语。公共服务供给机制的建构受到了社会治理历史类型的制约,
大学生普遍处于性生理活跃期,很多学生会选择恋爱或有恋爱意愿,但大多数学生的性知识及性态度不容乐观。无保护的性行为和多性伴显著增加了怀孕与性病(含艾滋病)的感染机会。
人们常说:"习惯成自然。"小班幼儿是幼儿跨入集体生活的一个转折点,也是进行常规教育的关键期。进餐习惯对小班幼儿来说是一个至关重要的常规,对幼儿的健康成长具有一定的意
受通信时间、存储能力等因素的限制,量子通信中通信双方传输的脉冲数只能是有限个,因此分析量子密钥分发协议的有限密钥安全性成为实现量子通信的重要前提。在实际的量子通信
在以IP业务为代表的分组业务量井喷式增长和新型业务不断涌现所导致的巨大带宽需求的刺激下,光网络技术迅速发展并不断演变。同时,光网络技术的迅速发展又推动了宽带流媒体应
对于矿山企业特别是资源矿山企业而言,选矿设备占了矿山机械的较大比重,具有资产价值高、设备种类复杂、使用寿命较长、工作环境恶劣等特点。而选矿设备在矿山生产中基本上为
在移动通信领域,随着宽带无线接入技术和移动终端技术的飞速发展,人们迫切希望能够随时随地乃至在移动过程中都能方便地从互联网获取信息和服务,于是移动互联网应运而生并迅
数据挖掘是数据库研究、开发和应用最活跃的分支之一,是计算机科学领域最有发展前景的一门技术,在从海量数据中挖掘可用知识的需求的推动下诞生。数据挖掘是从大型数据集中,