论文部分内容阅读
在Internet浪潮的冲击下,尤其是Web的全球普及,使得Web上的信息量无比的丰富,人们面临着数据爆炸的挑战。数据挖掘是通过挖掘数据仓库中存储的大量数据,从中发现有意义的新的关联模式和趋势的过程。通过对Web数据的挖掘,不仅可以得出关于群体用户访问行为和方式的普遍知识,用于改进Web服务设计,更重要的是,通过对用户特征的理解和分析,有助于开展有针对性的电子商务活动。而仿生类算法是应用于数据挖掘领域的重要工具。 本文在分析了蚂蚁觅食行为和Web用户访问行为相似性的基础上,给出了基于蚁群的Web自适应站点算法,通过该方法,能使用户通过最优路径到达目标页面。另外,受蚂蚁能识别与之相遇蚂蚁是敌是友行为的启发,给出了基于蚁群本能识别能力的Web用户聚类算法,通过用户事务的相似度矩阵实现了对Web用户模式的聚类。 另一方面,本文在分析遗传算法基本理论的基础上,将标准遗传算法和K-均值划分聚类方法有机的结合,给出了一种用混合遗传聚类方法对Web用户的行为进行分析的方法。该方法是一个具有全局最优解的聚类方法,其结果明显优于标准遗传聚类方法。该算法能够有效地剔除噪音,得到很好的用户聚类和页面聚类效果,为网站的管理者设计个性化的商务网站提供了有效的决策依据。 最后,本文综合利用遗传算法的快速全局搜索能力和蚁群算法的正反馈收敛机制,优势互补,给出了一种融合的Web挖掘算法,该算法比单独的蚁群算法以及遗传算法在优化性能和时间性能上有一定的优势。