匿名用户Web浏览特征挖掘

来源 :复旦大学 | 被引量 : 0次 | 上传用户:ssxjj
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
该文首先介绍了匿名Web浏览特征挖掘的基本概念和面临的问题,提出了两种匿名环境下会话抽取的启发式规则:超过策略和路径跟随策略,定义了会话的基本特征、会话模型和数据结构.该文分析了两类挖掘技术:基于概率的Markov模型和基于距离的向量空间模型,它们代表着两种不同的挖掘方向,各有其优缺点.Markov模型可以灵活地处理浏览会话所呈现出的变长、有序等特性,但模型的复杂性和单一性限制了它在匿名环境下挖掘用户浏览特征的能力.向量空间模型具有简便、快捷等优点,但它对会话数据的处理能力较弱.该文分别对它们进行改进以达到匿名挖掘的目的.我们首先提出一种简化计算方法来降低Markov模型的复杂性,包括路径修剪策略和状态修剪策略两部分.接着我们介绍了一种基于会话的混合Markov挖掘模型,它为每个会话聚集都产生一个相应的隐含Markov模型,可以提高挖掘模型灵活性.我们用实验验证了模型的效能,结果显示该文提出的方法可以较好地满足匿名环境下Web浏览特征挖掘的需要.
其他文献
计算机图形学作为数字媒体技术的核心,随着近年来计算机硬件性能的提升和虚拟现实领域的强大需求,日趋成为了工程界、学术界关注的热点领域。数字游戏、影视动画等领域的快速
对象-关系型数据库系统通过扩展关系模型,可以使我们同时拥有关系数据库的功能强大的查询语言和高可靠性以及面向对象数据库的灵活性.在对象-关系型数据库中,允许一个属性的
智能视频监控是在不需人为干扰的情况下,计算机对监控器传输的信息进行分析处理。它涉及到很多学科,包括计算机科学,模式识别,计算机视觉等。随着计算机硬件、软件、网络的发
该文首先简单介绍了Internet上的各类资源,着重讲了WWW的由来,然后对目前国内外主要的信息搜索系统进行了简介和比较;接着介绍了信息搜索系统所涉及到的HTTP协议以及HTML标记
对分布式实时系统的研究是当今并行处理的研究热点之一,如何合理有效地将并行任务分配到各个分布式处理节点,将直接影响系统的执行性能.该论文对分布式系统中实时任务的容错
该文在对国内外相关领域研究与发展现状综述的基础上提出以交换网络为中心的并行PC系统结构,改进了I/O性能,大大提高了I/O交换速度.提出了并行PC的网络层次模型和交叉开关的
计算机图形技术是一个十分热门的研究方向,将其应用于仿真系统中,使计算机图形技术与仿真技术相结合,是当前极具发展前景的应用领域。因此,本课题的研究开发,对化工企业的安全、高
该文详细介绍了并行化编译中的两个相关方面.其一是程序结构化,其二是数组私有化.该文提供了一种程序结构化方法,在控制流图的基础上将不同的goto转换为语义等价的标准的whil
随着Internet/Intranet的广泛普及,网络应用已经深入到社会政治、经济、文化、生活等各个领域,与此同时,网络信息正面临着巨大的安全威胁。因此,网络信息安全问题已成为牵动千家万
对象关系数据库系统(ORDBMS)是面向对象技术与传统的关系数据库相结合的产物.它充分利用关系数据模型坚实的数学理论基础和关系型数据库管理系统的比较成熟的查询优化、并发