网站访问点击流分析与基于SSIS的ETL设计实现

来源 :西南财经大学 | 被引量 : 0次 | 上传用户:niwai
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
你真的了解自己的网站吗?每天有多少人访问您的网站?现在有谁正在您的网站上?他们做了什么?他们从何而来?搜索引擎为您带来多少点击?访问者搜索的关键词是什么?您的哪个栏目哪个网页更受欢迎?这些问题的解决就是本文的目的,其手段是通过数据仓库的形式,因为创建数据仓库作为企业管理决策支持系统的基础已得到越来越多企业领导者的认同,也是企业经营管理决策与信息化结合的趋势所在。 传统数据仓库是针对某个主题,对传统操作型数据库中的数据进行抽取、清洗和转换,加载到数据仓库中,形成多维数据集。决策者可通过OLAP(在线分析处理)或数据挖掘工具对从不知晓的企业运营的内在知识进行挖掘,挖掘隐含在内部的商业知识、商业模式,或针对企业以往发展,探索成功与失败的原因。 点击流数据仓库的数据来源与一般数据仓库不同,来自点击流数据,通过收集、整理、转换这些数据,建立针对Web点击信息的各种维度,进而分析网站用户的行为并最终探索导致这些行为的内在原因是点击流数据仓库的建设初衷。通过点击流数据仓库将描述用户行为的数据转为决策者可以利用的有效信息,为网站经营者提供决策支持。 通常,Web分析工具能提供一些有利于分析网站基本流量和访问模式的概要级信息,了解网站的基本运行状况。但要探究导致网站用户行为的内在因素或其他一些商务问题时,Web分析工具则显得力不从心。 点击流数据仓库的建立完全遵从传统数据仓库建立的原则,其优势源于点击流数据是一种真正改进了的数据资源集,加上数据仓库系统本身的成熟应用,使点击流数据仓库具有其他方式或工具无法比拟的优势。 首先,点击流数据仓库能够更好地组织和管理点击流数据,能描绘Web用户完整的行为视图; 其次点击流数据仓库中的数据通常经过抽取、转换和清洗,因而在数据仓库上进行点击流数据分析可免去许多数据预处理的工作; 点击流数据仓库中集成了大量的历史数据,而对用户行为分析的大多数问题也与时间有关,因此,借助点击流数据仓库进行点击流分析更利于理解用户的行为。 同时,商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具。商业智能系统是建立在数据仓库、OLAP(联机分析)和数据挖掘等技术的基础之上,通过收集、整理和分析企业内外部的各种数据,为企业管理层提供科学的决策依据。 而Microsoft SQL Server2005是用于大规模联机事务处理(OLTP)、数据仓库和电子商务应用的数据库和数据分析平台。在商业智能方面SQLServer2005提供了三大服务和一个工具来实现系统的整合。三大服务是SQLServer Analysis Services(SSAS分析服务)、SQL Server IntegrationServices(SSIS集成服务)、SQL Server Reporting Services(SSRS报表服务)和一个工具是SQL Server Busilless Intelligence Development Studio(BIDS)。 ETL是将业务系统的数据经过抽取、清洗转换之后加载到数据仓库的过程,目的是将企业中的分散、零乱、标准不统一的数据整合到一起,为企业的决策提供分析的依据。ETL是OLTP系统和OLAP系统之间的桥梁,是数据从源系统流入数据仓库的通道。ETL是BI项目最重要的一个环节,通常情况下ETL会花掉整个项目的1/3的时间,ETL设计的好坏直接关系到BI项目的成败。ETL也是一个长期的过程,只有不断的发现问题并解决问题,才能使ETL运行效率更高,为项目后期开发提供准确的数据。ETL的实现有多种方法,SQLServer2005的SSIS服务提供了较为完好的ETL解决方案。 因此,应用点击流数据仓库对网站访问进行统计分析,在ETL数据加载方面使用SQL Server2005的SSIS集成服务,这也是本文主要的应用设计。主要内容章节安排如下: 第一章绪论部分。主要介绍课题的研究背景,概述课题的研究意义,目的和实际价值。主要针对网站访问点击流分析,深入挖掘客户访问信息,全面掌握网站运营情况。举例分析国内外产品的研究及应用情况,指出课题的主要研究内容。 第二章商业智能的技术构成与点击流数据仓库部分。介绍商业智能、点击流数据仓库的定义及相关概念,并对SQL,Server2005实现BI的体系结构进行了解,分析SSIS设计流程,了解SSIS的典型应用。 第三章Web服务器日志与点击流数据源部分。主要对Web服务器日志文件格式进行分析,研究日志文件与点击流数据源的关系。 第四章数据预处理和基本维度数据加载部分。主要分析对W3C日志文件进行预处理的方法、URL的编码及解码实现和在后面数据仓库中用到的基本维度如时间、操作系统、浏览器及地区维度的数据加载;其中,主要解决IP地址到地区维度的映射。 第五章数据仓库建模及ETL设计实现部分。主要对点击流数据仓库的建模和基于SSIS的ETL的设计实现,其中提出了在数据仓库建模中的一些建议及SSIS性能优化的方式。 第六章网站日志分析与展现部分。主要是利用Analysis Services创建多维数据集,部署多维数据集到Analysis Services数据库;再利用ProClarity Desktop Professional和Excel2007来完成BI前端展现。 第七章总结与展望。主要对对本文的研究工作进行概括和总结。 本文主要的亮点主要解决了IP地址到地区维度、接入商维度的映射,借助接入商分析功能,可以了解网站访问者中各接入商的比例,从而确定所需要设置的镜像服务器的比例。能够通过深入挖掘客户访问信息,全面掌握网站运营情况。 关键词:点击流;数据仓库;Web;服务器日志分析;BI;商业智能;ETL;解决;方案;SSIS;集成服务;OLAP;前端展现
其他文献
在供应链管理模式下,单个企业之间的竞争变成了企业所在供应链之间的竞争。供应链的构建中最重要的一个环节就是评价选择供应商。从长期发展来看,核心企业应选择能保持较高的
虚拟植物生长可视化在现代农林生态研究中具有重要意义,而植物的形态发生模型和生理生态模型及其结合方式是本研究中的核心问题。论文首先在改进Open L系统的基础上,提出了植
根据移动自组网的特点,在无线通信带宽极其受限的情况下,采用组播技术实现多方通信可以节省带宽、减少网络开销,设计有效的组播路由协议是移动自组织网研究领域的重要内容之一。
随着网络技术和应用的快速发展,网络中所产生的数据也急剧增长,相应的数据存储技术和应用技术也得到快速发展,特别是云计算相关技术和数据挖掘技术的发展。云计算技术的应用
如今,网络上存在着大量的异构数据源,其中包含有海量的文本数据(FlatText),关系数据,以及XML等半格式化数据.这些数据源往往表达着相似甚至相同的语义,但彼此之间却是异构的.
本文主要探讨基于XML的电子表格文档格式转换技术。由于XML语言具有开放、可扩展等特点,越来越多的文档格式开始采用XML语言描述,其中包括UOF和Open XML。为保证文档的安全性和
本文提出了一个应用于无线传感器网络的定位算法。该定位算法具有可扩展、分布式和距离无关等特点。在无线传感器网络中,位置信息对无线传感器网络的应用至关重要。高精度、低
互联网中,用户对信息的需求往往是针对某个领域和面向特定主题的,在这些方面传统搜索引擎的召回率和精确率都不能令人满意。面向主题的垂直搜索引擎的目的是提供分类精确、数
当前,全球信息技术产业正着一场声势浩大的“云计算”浪潮。云计算的资源存储在云供应商的虚拟机集群上,本地计算机只需要通过互联网发送一个任务请求,云端就能够根据用户的
互联网技术的发展日新月异,参与到网络中的用户越来越多,各类方便快捷的网络社交平台,例如国外的Twitter、Face Book和国内的新浪微博、网易微博等,极大的改变了人们获取信息