论文部分内容阅读
随着互联网的发展,WWW上信息量在快速的增长,网络在为人们提供了大量信息的同时,也使得我们陷入一个矛盾,那就是一方面人们迫切地需要从Web上快速、有效地获取知识,另一方面是Web上信息的数量太庞大并且信息内容结构复杂,处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。Web挖掘技术是传统数据挖掘技术在Web环境下的应用,其从大量的Web文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、具有潜在应用价值的、非平凡的模式。本文主要针对以上课题展开研究,主要内容如下:论文分析了现有的数据挖掘、Web文本挖掘和XML的基本概念、方法和技术。通过对半结构化数据的处理及其关键技术(如数据抽取方法、转换算法、挖掘方法等)的研究,提出了一种基于XML的Web文本挖掘实用方案。首先,将WWW上半结构化的HTML网页中的数据通过数据抽取、清洗和格式转换,得到有效的XML格式的数据。然后,利用SQL SERVER 2005的集成服务(SQL SERVER IntegrationServices,“SSIS”)和分析服务(SQL SERVER Analysis Services,“SSAS”)实现数据的转换、装载和挖掘。最后,使用Visual Studio.NET和DMX(Data Mining eXtension)设计简洁的图形用户界面以方便用户浏览挖掘结果。论文的构想通过构建一个基于XML的塑料市场信息采集分析系统得以实现。该原型系统根据从Web上采集的塑料原料价格历史数据预测其未来的价格趋势,为人们提供了一个对Web上感兴趣的数据进行数据抽取并分析挖掘的Web挖掘方案。