论文部分内容阅读
随着信息技术的进步和网络的发展,在网络上出现了各种类别的信息资源,网络信息资源的种类繁多,包罗万象,主要可以分为网络数据库、联机馆藏目录库、电子出版物、政府机构信息、休闲娱乐等信息资源。各种各样的信息资源又以不同的形式和方式存储在网络上,如Web站点。Web站点上的Web信息资源受到广大网民的喜爱和关注。但是,Web信息资源分布分散,分类不明确、垃圾信息过多使得用户在搜索信息时花费了大量的时间和精力却不能得到满意的结果。用户对有价值的Web信息资源的渴求日益突出,亟待解决该问题来达到用户的信息需求。因此,本文将对Web站点上的Web信息资源进行了聚类研究。传统的聚类方法有很多种,按照不同的分类标准,聚类可以被分为硬聚类、模糊聚类、系统聚类、动态聚类、基于划分的聚类、基于密度的聚类、基于网络的聚类。具体的聚类算法如K-means算法、神经网络算法、PAM算法等等,本文对各种算法的时间复杂度、数据支持格式等作为比较标准对各种聚类算法进行了比较分析。应用传统的聚类算法可以对Web信息资源进行聚类,但是聚类的结果表示并不尽如人意。形式概念分析作为一种能够以概念格形成可视化的hasse图的技术被广泛应用于知识检索、数据挖掘等各个领域。因此,本文将形式概念分析理论与传统的聚类算法结合起来对Web信息资源进行聚类。对形式概念分析聚类的工具软件进行对比分析,找出适合Web信息资源聚类的工具软件与聚类的方法结合起来建立了基于形式概念分析的Web信息资源聚类模型,并以智联招聘网站为例对该对招聘网站上的招聘Web信息资源进行了各个方面的聚类,形成可视化的聚类效果,达到聚类的目的满足了用户个性化的信息需求,为用户提够了更好的信息服务。