一种WEB日志数据挖掘系统的设计与实现

被引量 : 8次 | 上传用户:countrygary
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的不断发展和应用,Web站点产生的信息也随之飞速增长,如何开发和利用Web站点提供的丰富信息资源成为人们普遍关注的问题。Web站点提供的丰富信息资源体现在两个层面:一方面,Web站点自身提供了丰富的信息内容;另一方面,人们对Web站点所带来的庞大的访问数据资源、复杂的数据结构和使用者的行为目的产生了更多的构想。如何利用Web站点的现有访问信息提高站点的性能和更好地为用户服务,成为计算机应用领域的热门话题之一。本文以Web目志为特征展开研究,在分析Web访问数据结构的基础上,引入Web数据挖掘方法,针对计算机科学与技术学院的Web站点,设计并实现了一个特定的分析系统,获得了一些有价值的分析结论。Web数据挖掘是将数据挖掘方法运用于Web数据,提取隐藏其中的、有用的、新颖的模式或知识发现的过程。其中一个主要分支是Web日志挖掘,它旨在从大量访问者的访问历史记录中,挖掘网站的频繁使用模式、用户访问行为模式、具有相似行为的用户群等信息,使人们能够充分了解Web站点的使用情况和使用Web站点的用户行为模式,从而对Web站点优化组织,更好地为用户提供服务,提高Web站点的访问量和性能。基于以上背景介绍,本文以学院网站Web服务器日志为研究素材,给出了一个Web日志数据挖掘系统的解决方案。通过本系统,不仅可以获得学院网站的基本统计信息,如站点的使用情况和服务器的响应情况,而且可以获得网站用户的访问模式和用户的聚类群信息。本文采用的聚类算法,在总结已有系统开发经验的基础上,从简洁、效率、实用的角度出发,对算法提出了改进的思路,使用会话访问顺序相似度作为聚类度量标准和字典向量存储,保证了聚类的准确度和存储效率。本文首先介绍了课题产生的背景和国内外研究现状。其次介绍了Web日志挖掘的处理模型和数据预处理各阶段的过程。再次介绍了本课题相关的算法。最后结合本课题的算法,给出了系统的详细设计。并在.NET平台上实现了本系统。
其他文献
近年来,随着现代信息技术的发展和网络环境的完善,以网上交易为核心内容的电子商务迅速发展起来。电子商务的优势之一是大大简化业务流程,降低企业运作成本,而电子商务中的企
企业要生存和发展,除了应具有完备和先进的硬件设施外,还应具有较强的技术和软件实力。而后者潜力的挖掘和能量的释放是不可估量的。作为其中的一个重要元素就是员工。企业都
运用GM(1,1)模型、贝叶斯公式等对27至31届奥运会田径项目的奖牌分布进行分析并做出预测,以此来为我国田径未来发展提供一定的理论参考。研究显示:奖牌集中现象依旧明显,洲优
戊戌政变后,光绪帝又在晚清政坛上活动了十年。从一些曾经远远瞥见过他的西方人的记载中,或者从那些伺候过他的太监口中,我们所能产生的映像是,他似乎陷入深度忧郁状态,对一
频繁曝光的食品安全问题,与人们的生活息息相关,越来越引起人们的高度重视,特别是最近几年,奶粉事件、瘦肉精事件、苏丹红事件以及最近的塑化剂等问题,越来越多的食品安全问题呈现
当前,随着国家政策的引导,行业变革的推动,市场环境的培养以及集团客户信息化需求的增长,集团客户市场逐渐成为了运营商角逐的新的焦点。然而,当前集团客户的市场营销还处在
本文针对目前国内女性护肤过度而导致的三个敏感症状:皮肤应激反应、皮肤屏障受损、激素型皮炎,结合生理与临床案例分析,得出可以使用不同功效成分配比的医学护肤品制剂,通过
语言是跨文化交际的工具;跨文化交际是语言的目的,不了解交际对象的文化背景,也就不可能有效地培养学生的跨文化交际能力。本文阐述了跨文化交际在英语教学中所起的不容忽视
无线地下传感器网络(Wireless Underground Sensor Network,WUSN)是指将大部分无线传感器节点埋在土壤中的传感器网络。传感器节点之间以及传感器节点与地上设备之间均通过无
随着计算机技术的高速发展,当今社会已经进入了互联网时代,人们的生活方式有了新的变化。当今社会,是一个通讯技术日益发达,信息技术蓬勃进步的社会,多媒体技术为教育提供了