基于XML的Web文本挖掘应用研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户:aurogon1
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的发展,WWW上信息量在快速的增长,网络在为人们提供了大量信息的同时,也使得我们陷入一个矛盾,那就是一方面人们迫切地需要从Web上快速、有效地获取知识,另一方面是Web上信息的数量太庞大并且信息内容结构复杂,处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。Web挖掘技术是传统数据挖掘技术在Web环境下的应用,其从大量的Web文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、具有潜在应用价值的、非平凡的模式。本文主要针对以上课题展开研究,主要内容如下:论文分析了现有的数据挖掘、Web文本挖掘和XML的基本概念、方法和技术。通过对半结构化数据的处理及其关键技术(如数据抽取方法、转换算法、挖掘方法等)的研究,提出了一种基于XML的Web文本挖掘实用方案。首先,将WWW上半结构化的HTML网页中的数据通过数据抽取、清洗和格式转换,得到有效的XML格式的数据。然后,利用SQL SERVER 2005的集成服务(SQL SERVER IntegrationServices,“SSIS”)和分析服务(SQL SERVER Analysis Services,“SSAS”)实现数据的转换、装载和挖掘。最后,使用Visual Studio.NET和DMX(Data Mining eXtension)设计简洁的图形用户界面以方便用户浏览挖掘结果。论文的构想通过构建一个基于XML的塑料市场信息采集分析系统得以实现。该原型系统根据从Web上采集的塑料原料价格历史数据预测其未来的价格趋势,为人们提供了一个对Web上感兴趣的数据进行数据抽取并分析挖掘的Web挖掘方案。
其他文献
21世纪制造企业的主要模式是敏捷制造。随着信息技术的飞速发展和经济的全球化,企业面对持续快速变化的需求,必须能够快速地做出响应,从而才能贏得市场,赢得客户。制造执行系
电子商务的迅猛发展改变了人们传统的购物习惯。然而,现有的利用分类搜索和关键字搜索的商品搜索技术,存在搜索结果量大而匹配精确度低的问题。本文以商品图像搜索为研究焦点
随着互联网行业规模的大力发展,数据存储量已由原来的TB跃升到PB、EB乃至ZB,大量结构化、半结构化和非结构化的数据面临着统一处理和分析。在这种背景下,大数据技术应用而生,大数
关系数据库关键词搜索为不了解数据库模式、不具备结构化查询语言知识的普通用户提供了一种有效获取数据库信息的方式,越来越受到研究人员的关注。许多研究把关系数据转换成
分布式虚拟现实技术是近年来科研与工程领域的热点。然而,在分布式虚拟现实系统的研发过程中,为了达到真实且实时的沉浸感和交互性能,设计者需要应对许多问题,主要包括如何降
基于网络的外语学习平台是目前网络技术研究的热点之一,它将改变现有的外语学习环境和教学模式,极大地提高外语学习效率。现有的外语学习平台只能在客观题上给学生标准答案,而无
IPv6是IETF制定的新一代网际协议,以取代目前地址日渐短缺的IPv4协议。尽管IPv6能够解决地址匮乏的问题,但是从IPv4过渡到IPv6还需要很长一段时间,在此期间,所有新增的IPv6网
随着网络技术的发展,越来越多的机密信息被存储到企业内部网络的计算机上。虽然企业在保障信息安全上投入了大量的资金,但因为信息泄漏而给企业带来的损失仍呈逐年上升趋势。
当今世界,反恐作战已成为世界各国捍卫国家安全与利益的重要内容。但由于反恐作战的特殊性,安保人员时常会冒着生命危险去排查一些可疑爆炸物,这项任务难免会让人感到极度恐
长江是沿岸地区经济发展的重要支柱,是长江水运交通的主动脉。但近些年,长江中下游河道乱采滥挖江砂问题越来越突出,严重威胁了长江河道的安全以及长江防洪。由于长江中下游