论文部分内容阅读
该文研究web访问挖掘的主要目的是获取用户访问web的目标、兴趣和偏爱等行为模式,以此来改进web站点的结构和web提供服务的方式,实现站点的自动化管理和信息个性化服务,从而帮助用户更容易地获取所需信息.web访问挖掘对于电子商务也有重要意义:可以提高客户关系管理CRM(customer relationship management)的质量;可以帮助进行商业决策和安全管理;通过个性化服务,可以实现电子商务的最终目标——one to one的行销策略.该文所做的研究工作主要有:(1)深入讨论了web访问挖掘中,数据准备阶段遇到的各种问题,给出了一种识别用户访问事务的简单、易行的方法.(2)用户浏览web时,有些页面浏览频率会相当高,如站点首页、嵌有很多超链的导航页等,因而对用户访问事务数据进行关联规则挖掘时,就会产生组合爆炸,发现过多的规则而难以理解,该文给出了带约束关联规则的快速挖掘算法,解决了组合爆炸问题,并使得提交用户的规则有意义更清楚.(3)讨论了基于广义后缀树的访问事务数据多功能挖掘方法.基于广义后缀树,能够快速挖掘用户浏览web的关键路径;计算用户浏览web页面的可达集和可达概率;基于发现的关键路径,给出了对海量日志数据聚类的CWKP算法,该算法解决了现有聚类模型忽略用户浏览web的有序、连续、重复特性及聚类维数过高的缺点,并且,基于广义后缀树的路径发现,不需要关联规则频繁侯选集的计算,因而速度更快,算法具有更好的伸缩性能.(4)对于发现的模式,研究了在个性化服务,站点的组织、自动调整和重构,电子商务等领域的应用方法.对于个性化服务,着重讨论了两种方法:基于推荐的方法和基于Petri网方法.这两种方法,都不需要用户的参与协作,完全是自动的.基于Petri网方法,具有直观性和不需要反复计算推荐集合的优点,而且Petri网能很自然的描述web中的多内容并发显示和并发浏览.