论文部分内容阅读
个性化信息服务是互联网应用中的一个研究热点,得到了很多研究者的关注,已经在电子商务和搜索引擎等领域得到了广泛的研究和应用。随着新一代以“用户”为中心的互联网模式Web2.0的产生,人们能够体验更加个性化的互联网信息服务。然而,随着互联网个性化信息服务应用的日益广泛,Web上的数据量猛增,随之而来的问题是Web数据的模糊性、粗糙性、随机性等不确定性特征的日益突出。在处理不确定的Web数据时,传统的Web挖掘技术难以进行有效地知识发现和个性化推荐,难以提高互联网个性化信息服务水平,因此有必要提高Web挖掘的智能化程度。 随着智能技术的发展和互联网应用的普及,计算Web智能作为计算智能和Web技术的集成,提高了Web挖掘的智能化程度,已经在电子商务领域得到广泛的研究和应用。 本文深入开展了模糊Web智能、粗糙Web智能等计算Web智能的研究,以及Web日志数据预处理和概念层次编码等Web技术的研究和实践,主要研究内容为: 1.分析Web日志数据的来源、数据预处理过程,重点研究事务识别的过程和方法,最后给出预处理示例; 2.研究表示背景知识的概念层次编码方法,具体包括:(1)分析现有的概念层次树编码方法,并在此基础上提出更有效的编码方法,以避免表间的连接操作代价,高效实现概念层次树的泛化和特化操作;(2)研究概念层次格形式的相关操作和存储表示,并改进概念层次格的编码方法,以高效实现概念层次格的泛化和特化操作; 3.研究计算Web智能中的模糊Web智能技术,提出基于SOFM网络的多层模糊关联规则挖掘算法,生成易于理解的、有意义的多层次模糊关联规则,提高Web日志挖掘的智能化程度,以提升互联网个性化信息服务水平; 4.研究计算Web智能中的粗糙Web智能技术,提出一种新的基于粗糙集的Web日志挖掘算法,抽取决策规则,预测Web用户访问行为,提高Web日志挖掘的智能化程度,以提升互联网个性化信息服务水平; 5.构建新一代互联网个性化信息服务系统模型,即Wiki系统模型,为互联网个性化信息服务提供研究平台。 本文的主要特色与创新之处: 1.提出了基于层次域的概念层次树二进制编码法。该编码方法中编码整齐清晰,能明确地表征其所在层次树中的位置,将层次中的偏序关系完全转化为编码间的关系,能有效表示Web挖掘的领域背景知识,而且可以避免表间的连接操作代价,高效实现了概念层次树的泛化和特化操作。同时改进了基于布尔传递闭包矩阵的概念格编码方法,该方法不仅避免了表连接操作代价,而且也减少了存储空间,可以有效表示多属性、多层次的领域知识,提高了实现概念层次格的泛化和特化操作的效率。 2.基于改进的概念层次树编码方案和SOFM网络,将模糊集引入关联规则挖掘中,提出了基于SOFM网络的多层模糊关联规则挖掘算法。该算法可以表示复杂庞大的概念层次树,也可以自动确定样本数据的隶属度函数。该算法可以有效地挖掘出易于理解的、有意义的多层次模糊关联规则,具有很好的效率和伸缩性,提高了Web日志挖掘的智能化程度。 3.提出了一种新的基于粗糙集技术的Web日志挖掘算法,采用基于差别矩阵的属性约简算法和属性值约简算法,抽取决策规则,以预测Web用户行为。该方法增强了决策分类规则集的完备性,提高了Web用户行为的预测精度,提升了Web日志挖掘的智能化程度。 4.引入统一建模语言UML对Wiki系统进行功能需求建模、数据建模和Web建模。基于UML的Wiki系统模型,提高了Wiki系统的软件重用和开发效率,并有利于新一代互联网模式Web2.0的研究和应用。