基于关联规则的校园网Web日志挖掘研究与实现

来源 :安徽大学 | 被引量 : 0次 | 上传用户:f415931981
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
万维网是一个巨大的、分布广泛的、全球性的信息服务中心,它涉及到人们生活中的方方面面。人们不再对网站、网页这些名词感到陌生了,政府机关、高校、公司都搭建了自己的网站,而且个人主页也相当流行。大家建设网站的目的都是相同的,就是通过网络这个平台展示企业、公司形象,拓展大家相互间的沟通和交流的渠道,是一个重要的交流窗口。同时人们也利用网络这个平台,实现网上购物、网上缴费等功能,我们将它称之为电子商务。当大家在访问一个网站时,当你点击网站上某个超文本链接时,网站的web服务器就会产生一条访问记录,并存储在日志文件中。所以可以想象,每天一个网站会产生大量的访问记录。Web日志挖掘就是利用这些记录来分析访问者的爱好、访问习惯等。通过web日志挖掘可以分析合理的布局网站结构、提高web的服务效率、及时的发现网络攻击、发现电子商务的潜在客户等功能。   本文首先介绍了数据挖掘的理论知识,以及当前国内外的研究现状;然后介绍了校园网的一些基本知识,指出了高校的校园网和其他商业网站之间的区别,高校校园网主要是为教学、科研服务的;同时对web数据挖掘和web日志挖掘的理论进行了研究,并详细的介绍了它们的主要研究方法和流程。Web日志挖掘的重点是数据的预处理技术和关联规则及基于关联规则的算法。   另外,还详细的介绍了关联规则及其经典算法apriori算法,并指出其不足之处,提出了一些改进的策略。在具体实现的时候,提出了基于矩阵的挖掘算法能更快的发现频繁项集。   最后,在对web日志挖掘理论和研究的基础上,设计实现了简单的web日志挖掘系统。并利用挖掘系统对我校主页web服务器、招生就业服务器的日志和二级单位的web服务器日志进行挖掘,并根据挖掘的结果对网站进行了改进。
其他文献
随着信息处理技术的飞速发展,命名实体识别技术越来越多的受到人们的关注。本文所研究的时间表达式识别,就是命名实体识别领域一项基础而重要的任务。时间表达式在自然语言处
随着网络的快速发展和计算机的普及,国家各级政府加快了对电子政务的建设步伐。网上审批作为电子政务的一部分,是政府对外办公的一个重要窗口。按照方便公众的原则实现政府各
作为软件复用的一种有效手段,软件构件技术成功地将系统开发的重点从程序设计转移到对已有构件的选取、组装和部署。在构件模型的支持下,通过复用已有的构件,软件开发者可以
我国是地震多发国家。地震活动频度高、强度大、分布范围广、震源浅,地震灾害十分严重。由于引发地震的因素很多且各种因素之间具有极不确定的非线性关系。本文通过时间震级
在组合优化问题中,车辆路径问题(Vehicle Routing Problem)属于比较典型的NP-Hard问题。一般情况下组合问题可以模式化为排序问题与分类问题,然而VRP则同时具备排序与分类这两
在这个信息爆炸的时代,信息检索系统的出现无疑给人们在因特网上寻找自己感兴趣的内容提供了莫大的帮助。对于系统返回的大量文档来说,用户们最关注的就是这些文档的顺序。一个
在传统的信息检索中,检索模型是在静态数据集上训练得到的,模型一经训练,结构和参数都相对固定下来,没有根据新的数据自动修正的机制。但现实中,Web上的信息是实时更新的,经
智能卡的名称来源于英文名词"Smart Card",智能卡属于IC卡(集成电路卡)的一种。它是一种带有微型CPU处理器和存储器等微型集成电路芯片且具有标准规格的卡片。由于智能卡具有
计算机程序设计是一种抽象且调试成本较高的过程,需要功能丰富和高效的可视化开发工具及环境的辅助。目前的主流开发工具只是在设计过程提供了静态可视化功能,而在调试过程缺
排课问题对于每个学校的教务管理来说都是非常重要的,现在是信息的社会,在学校的教务管理中实现排课的智能化,可以快速高效的对课程进行编排,对整个学校的教学体制的管理具有