论文部分内容阅读
摘 要:随着Internet应用的逐渐普及,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。文中将数据挖掘的思想引入WWW信息处理领域来解决Web信息有效获取的问题,讨论了在WWW上进行信息挖掘所采用的技术和策略,最后简要介绍了基于Web的信息挖掘应用前景和方向。
关键词:数据挖掘;KDW;Web
中图分类号:TP274+.2文献标识码: A
An Overview of Date Mining Technology Based on Web
WANG Jing
(International College; Central South University of Forestry and Technology, Hunan Changsha 410004)
Key words:overview;date mining technology;Web
数据库中的知识发现KDD( Knowledge Discovery in Databases )是指从数据库中发现潜在的有意义的未知的关系模式和趋势,并以易被理解的方式表示出来。但传统KDD 技术所涉及的主要是结构化的数据库,而网上资源却没有统一的管理和结构,数据往往是经常变动和不规则的,因此人们需要比信息检索层次更高的新技术,我们称之为Web中的知识发现KDW(Knowledge Discovery in Web),它是为了揭示文档中隐含的知识,KDW作为KDD 的一个新主题是一个很有意义的研究方向。
1 基于Web的数据挖掘
1.1基于Web的数据挖掘任务
Web信息的多样性决定了Web挖掘任务的多样性。总的来说Web挖掘的对象可分为内容挖掘、访问信息挖掘和结构挖掘。
1.2基于Web内容的数据挖掘
基于Web内容的数据挖掘是指通过对网络信息内容的准确定位,揭示众多信息之间的关系,挖掘出隐藏在网络数据或文档中的知识内容。内容挖掘是Web数据挖掘中最常用也是最重要的一种。
用户面对整个Internet的海量信息时往往感到很难找到他真正所需要的有用信息。搜索引擎是当前广泛被采用的一项技术,它为用户在浩瀚的信息海洋中的寻觅提供了一个快捷的工具。但是,搜索引擎,即便是象Yahoo、InfoSeek,Lycos这样的著名的搜索引擎,仍不能完美地解决问题。用户只能在internet上简单地通过搜索引擎进行搜索,使用最复杂的也不过是布尔查询而已。而不经过专门培训的普通用户是很难构造出高质量、无查询歧义的布尔查询的。挖掘引擎的出现超越了搜索技术,并正在将搜索技术推向一个新层次。搜索引擎和挖掘引擎是互补的,有一定的相同之处。它们处理的对象都是字串和文本这一点是相同的。但是,搜索引擎提供的功能是单一的,主要是查找定位符合用户查询需要的文献的位置,因此它需要用户提供由一个或若干关键字串组成的查询表达式。支持这一过程的核心技术是数据库和索引,而Agent技术为它的智能化提供了有力的帮助。尽管挖掘引擎也提供定位文献位置的功能,但这不是它的主要功能。好的挖掘引擎自动地提取相关文献之间的有价值的关系知识,并且将这些知识以可视的、动态改变的方式反馈给用户。支持这一过程的核心技术是特征提取、分类、聚类和关联规则发现、知识评价等。搜索引擎在一定程度上可以被认为是挖掘引擎的预先处理。
1.3基于Web结构的数据挖掘
基于Web结构的数据挖掘是对Web页面超链关系,文档内部结构,文档URL中的目录路径结构等的挖掘。对于基于Web结构的数据挖掘而言,一个重要的问题是获得有关不同网页间相似度及关联度的信息有助于用户找到相关主题的权威站点。在Web中有两种特殊且相互关联的网页:权威网页和引导网页,权威网页往往对于某一主题包含比较多的用户所需要的信息,常常有许多指向它的链接。引导网页虽然不一定包含很多某个特定主题的内容,但是它包含许多指向这个主题的网页的链接。HITS(Hyperlink Induced Topic Search)算法就是这样一个通过分析权威页面和引导页面进行Web结构挖掘的算法。使用HITS算法对一组Web页面进行分析,可以得到这组页面中的权威页面和引导页面。
1.4基于Web访问的数据挖掘
基于Web访问的数据挖掘是指对用户访问Web时,服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣。通过挖掘一段时间群体用户对一个Web站点访问日志,可以得到群体用户的访问路径模式。这种访问模式反映设计者所设计的Web页面关联的优劣,根据这种数据挖掘的结果调整网站的结构和内容,可以很有效地改善网站服务。
2 当前基于Web数据挖掘的主要研究方向和应用前景
目前国内外基于Web数据挖掘的研究主要是以知识发现的任务描述、知识评价与知识呈现为主线,以基于各种理论的有效知识发现算法研究为中心,以及更加广泛的应用研究为主要特点。
(1)数字地球
所谓数字地球技术是指“Web+GIS+KDD”的集成,使人们从海量空间数据库提取有用的知识,为决策支持提供重要依据。主要应用于重点地区灾害实时监测、评估、预警和决策支持、各种传感器和直接与卫星通信的探测基元研制、海量空间数据的智能化获取、网上地理信息系统(Web GIS)、应用模型服务器、元数据库管理、虚拟建模与仿真和抗灾救灾的决策支持等系统。
(2)金融和商业领域
在金融与商业领域中,基于Web的信息挖掘技术的应用表现为范围上的延拓和层次上的深化以及多种技术方法的整合。 如:利用文本挖掘,可以从Internet上的成千上万的与金融相关的Web网页中获取全球金融市场的实时数据、与金融市场相关的市场、宏观经济环境、政策和法规等消息、进行金融分析报告等;利用数据挖掘技术对分布于全球的市场消息和信息的处理来预测全球市场的主要股票指数,并对全球主要外汇交易市场货币交易率的未来走势进行预测和决策分析。
关键词:数据挖掘;KDW;Web
中图分类号:TP274+.2文献标识码: A
An Overview of Date Mining Technology Based on Web
WANG Jing
(International College; Central South University of Forestry and Technology, Hunan Changsha 410004)
Key words:overview;date mining technology;Web
数据库中的知识发现KDD( Knowledge Discovery in Databases )是指从数据库中发现潜在的有意义的未知的关系模式和趋势,并以易被理解的方式表示出来。但传统KDD 技术所涉及的主要是结构化的数据库,而网上资源却没有统一的管理和结构,数据往往是经常变动和不规则的,因此人们需要比信息检索层次更高的新技术,我们称之为Web中的知识发现KDW(Knowledge Discovery in Web),它是为了揭示文档中隐含的知识,KDW作为KDD 的一个新主题是一个很有意义的研究方向。
1 基于Web的数据挖掘
1.1基于Web的数据挖掘任务
Web信息的多样性决定了Web挖掘任务的多样性。总的来说Web挖掘的对象可分为内容挖掘、访问信息挖掘和结构挖掘。
1.2基于Web内容的数据挖掘
基于Web内容的数据挖掘是指通过对网络信息内容的准确定位,揭示众多信息之间的关系,挖掘出隐藏在网络数据或文档中的知识内容。内容挖掘是Web数据挖掘中最常用也是最重要的一种。
用户面对整个Internet的海量信息时往往感到很难找到他真正所需要的有用信息。搜索引擎是当前广泛被采用的一项技术,它为用户在浩瀚的信息海洋中的寻觅提供了一个快捷的工具。但是,搜索引擎,即便是象Yahoo、InfoSeek,Lycos这样的著名的搜索引擎,仍不能完美地解决问题。用户只能在internet上简单地通过搜索引擎进行搜索,使用最复杂的也不过是布尔查询而已。而不经过专门培训的普通用户是很难构造出高质量、无查询歧义的布尔查询的。挖掘引擎的出现超越了搜索技术,并正在将搜索技术推向一个新层次。搜索引擎和挖掘引擎是互补的,有一定的相同之处。它们处理的对象都是字串和文本这一点是相同的。但是,搜索引擎提供的功能是单一的,主要是查找定位符合用户查询需要的文献的位置,因此它需要用户提供由一个或若干关键字串组成的查询表达式。支持这一过程的核心技术是数据库和索引,而Agent技术为它的智能化提供了有力的帮助。尽管挖掘引擎也提供定位文献位置的功能,但这不是它的主要功能。好的挖掘引擎自动地提取相关文献之间的有价值的关系知识,并且将这些知识以可视的、动态改变的方式反馈给用户。支持这一过程的核心技术是特征提取、分类、聚类和关联规则发现、知识评价等。搜索引擎在一定程度上可以被认为是挖掘引擎的预先处理。
1.3基于Web结构的数据挖掘
基于Web结构的数据挖掘是对Web页面超链关系,文档内部结构,文档URL中的目录路径结构等的挖掘。对于基于Web结构的数据挖掘而言,一个重要的问题是获得有关不同网页间相似度及关联度的信息有助于用户找到相关主题的权威站点。在Web中有两种特殊且相互关联的网页:权威网页和引导网页,权威网页往往对于某一主题包含比较多的用户所需要的信息,常常有许多指向它的链接。引导网页虽然不一定包含很多某个特定主题的内容,但是它包含许多指向这个主题的网页的链接。HITS(Hyperlink Induced Topic Search)算法就是这样一个通过分析权威页面和引导页面进行Web结构挖掘的算法。使用HITS算法对一组Web页面进行分析,可以得到这组页面中的权威页面和引导页面。
1.4基于Web访问的数据挖掘
基于Web访问的数据挖掘是指对用户访问Web时,服务器方留下的访问记录进行挖掘,从中得出用户的访问模式和访问兴趣。通过挖掘一段时间群体用户对一个Web站点访问日志,可以得到群体用户的访问路径模式。这种访问模式反映设计者所设计的Web页面关联的优劣,根据这种数据挖掘的结果调整网站的结构和内容,可以很有效地改善网站服务。
2 当前基于Web数据挖掘的主要研究方向和应用前景
目前国内外基于Web数据挖掘的研究主要是以知识发现的任务描述、知识评价与知识呈现为主线,以基于各种理论的有效知识发现算法研究为中心,以及更加广泛的应用研究为主要特点。
(1)数字地球
所谓数字地球技术是指“Web+GIS+KDD”的集成,使人们从海量空间数据库提取有用的知识,为决策支持提供重要依据。主要应用于重点地区灾害实时监测、评估、预警和决策支持、各种传感器和直接与卫星通信的探测基元研制、海量空间数据的智能化获取、网上地理信息系统(Web GIS)、应用模型服务器、元数据库管理、虚拟建模与仿真和抗灾救灾的决策支持等系统。
(2)金融和商业领域
在金融与商业领域中,基于Web的信息挖掘技术的应用表现为范围上的延拓和层次上的深化以及多种技术方法的整合。 如:利用文本挖掘,可以从Internet上的成千上万的与金融相关的Web网页中获取全球金融市场的实时数据、与金融市场相关的市场、宏观经济环境、政策和法规等消息、进行金融分析报告等;利用数据挖掘技术对分布于全球的市场消息和信息的处理来预测全球市场的主要股票指数,并对全球主要外汇交易市场货币交易率的未来走势进行预测和决策分析。