基于web的个性化挖掘方法

来源 :吉林大学 | 被引量 : 0次 | 上传用户:chenlecheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着科学技术的飞速发展,信息高速公路的普及,人们已经被包围在信息的汪洋大海之中。Internet是海量信息源,而且其信息的组织是异构的、多元的和分布的。由于信息不断地更新和增加,网络教育在世界各国日益普及。越来越多的人通过internet进行学习。网络教育资源管理系统NERMS(Network Educational Resource Management System,以下简称NERMS)是吉林大学承担的吉林省科学技术厅的重大项目。NERMS的主要目标是对繁多的网络教育资源进行有效的组织和管理,以便于网络教育资源的高度共享和便利获取,从而加快网络教育资源的开发和促进网络教育的发展。在NERMS中为了给用户更好的服务,为不同的用户提供适合其自身特点的个性化页面。 将Internet从被动接受浏览者的请求转化为主动感知浏览者的信息需求,实现Internet系统对浏览者的主动信息服务。这正是新一代的信息服务的发展方向。个性化主动信息服务的实现途径就是通过对用户信息需要、兴趣爱好和访问历史的收集分析,建立用户模型,并将用户模型应用于信息的过滤和排序,从而指导用户的浏览过程和信息检索,或向用户主动推送信息。Internet上的个性化信息服务系统必须具有三个能力,即用户概貌能很好地反映用户的兴趣嗜好;为适应用户嗜好的变化,用户概貌能做适应性的改变;自动开发新的信息领域,主动向用户提供推荐服务。本文首先介绍了个性化主动信息服务推荐技术。然后分析了NERMS中个性化系统的结构和工作原理并给出了相关的工作,即如何根据不同用户各自的特点主动的为用户提供其相关的信息于内容。接着介绍了GSP算法(Global Sequential Pattern Algorithm)。GSP算法是一个基于AprioriAll的算法。GSP的引入是为了发现满足序列模式中的时间约束、滑动窗口的模式。GSP算法增加了时间约束、滑动窗口和分类法。通过添加这些约束,可以将数据库转换成了许多用户的访问序列。每个客户序列显示出这个客户已经进行了的访问。因此挖掘frequent序列问题是要发现那些在所有客户序列之间以足够频率出现的“后继”(或项目集)。在科学和商业的很多领域,发现事件之间预期的序列关联越来越有<WP=63>用和重要。随后对GSP算法的原理及实现方法进行了详细的介绍,然后介绍如何将该方法应用到了NERMS中。GSP 挖掘方法用来对web日志中的用户的访问资源顺序进行挖掘,找到交互信息的共同特征,以此来找到用户的兴趣爱好所在,为用户生成相应的推荐。在文中作者也论述了GSP算法的优点在于效率高,比其他算法要节省时间的特点。同时本文也给出了算法的执行结果以及与其他算法的比较。除了高性能的有点之外,用户可以指定序列模式中连续成员之间的最大间隔和最小间隔。模式的每个成员都可以包含在一系列交易中所购买的物品的并集中,只要最大间隔和最小间隔之差小于指定的滑动窗口时间大小即可。最小间隔约束不会带来性能退化,但是,使用最大间隔或滑动窗口却会损失一定的性能。因为一旦加入了滑动窗口,可能会生成更多的候选者。但是这个特性为用户提供了更多的灵活性。这个系统实现了GSP算法的所有部分。它能够有效地提供客户的频繁序列模式的正确输出。文中也将GSP算法和其它的算法AprioriAll进行了比较,我们可以看到GSP算法比AprioriAll算法更有效一些。在本文的最后一部分,给出了应用个性化系统之后,整个系统的输入和输出界面并列出了系统的推荐时间,可以看出整个系统的执行效率是非常出色的。
其他文献
宽带多业务接入网络可以在一个平台上提供多种类型的服务,相比单独建立多个专用业务类型的接入网络具有运营管理维护成本更低,网络铺设费用更低,灵活性更好和网络利用率更高的优
Web服务作为新一代分布式技术,它的松散耦合性、跨平台、跨语言、良好的互操作特性已为许多专家拥护并得到广大 IT公司和组织的支持。Web服务技术的应用是全球网络化高速发展
随着应用的深入和计算技术的发展,并行计算在数值计算领域里扮演着越来越为重要的角色,成为了解决很多大规模科学计算问题的唯一途径。 并行计算的应用离不开并行软件的支持
本文在分析和研究当前计算机辅助教学(CAI)状况的基础上,采用积件化的设计思想,研究和开发了基于Authorware的多媒体课件自动生成系统。该系统将课件的内容和结构分离开,为教师
数字指纹图像识别是人类生物特征识别技术中最早应用、技术最为成熟、价格最低廉的分支,被广泛地应用在刑侦破案、住宅安全,银行、证券、保险等金融机构的身份确认,重要区域的门