基于XML的Web文本挖掘应用研究

来源 :合肥工业大学 | 被引量 : 0次 | 上传用户：aurogon1

【摘要】

：

随着互联网的发展,WWW上信息量在快速的增长,网络在为人们提供了大量信息的同时,也使得我们陷入一个矛盾,那就是一方面人们迫切地需要从Web上快速、有效地获取知识,另一方面

【作者】

：

马宏伟

【机构】

：

合肥工业大学

【出处】

：

合肥工业大学

【发表日期】

：

2009年期

【关键词】

：

XML 数据挖掘 Web挖掘 Web文本挖掘 SQL SERVER

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网的发展,WWW上信息量在快速的增长,网络在为人们提供了大量信息的同时,也使得我们陷入一个矛盾,那就是一方面人们迫切地需要从Web上快速、有效地获取知识,另一方面是Web上信息的数量太庞大并且信息内容结构复杂,处理这些信息具有很多困难。为了解决这个矛盾,Web挖掘技术提供了一种途径,目前Web挖掘的研究正处在不断发展的阶段,需要在理论、实现方法与技术上进行大量的研究。Web挖掘技术是传统数据挖掘技术在Web环境下的应用,其从大量的Web文档集合和用户浏览Web的数据信息中发现蕴涵的、未知的、具有潜在应用价值的、非平凡的模式。本文主要针对以上课题展开研究,主要内容如下:论文分析了现有的数据挖掘、Web文本挖掘和XML的基本概念、方法和技术。通过对半结构化数据的处理及其关键技术(如数据抽取方法、转换算法、挖掘方法等)的研究,提出了一种基于XML的Web文本挖掘实用方案。首先,将WWW上半结构化的HTML网页中的数据通过数据抽取、清洗和格式转换,得到有效的XML格式的数据。然后,利用SQL SERVER 2005的集成服务(SQL SERVER IntegrationServices,“SSIS”)和分析服务(SQL SERVER Analysis Services,“SSAS”)实现数据的转换、装载和挖掘。最后,使用Visual Studio.NET和DMX(Data Mining eXtension)设计简洁的图形用户界面以方便用户浏览挖掘结果。论文的构想通过构建一个基于XML的塑料市场信息采集分析系统得以实现。该原型系统根据从Web上采集的塑料原料价格历史数据预测其未来的价格趋势,为人们提供了一个对Web上感兴趣的数据进行数据抽取并分析挖掘的Web挖掘方案。

其他文献

面向服务的制造执行系统架构及其关键技术研究

21世纪制造企业的主要模式是敏捷制造。随着信息技术的飞速发展和经济的全球化,企业面对持续快速变化的需求,必须能够快速地做出响应,从而才能贏得市场,赢得客户。制造执行系

学位

敏捷制造制造执行系统面向服务的体系结构企业服务总线技术

面向图像购物搜索的图像分析方法研究

电子商务的迅猛发展改变了人们传统的购物习惯。然而,现有的利用分类搜索和关键字搜索的商品搜索技术,存在搜索结果量大而匹配精确度低的问题。本文以商品图像搜索为研究焦点

学位

SIFT描述子词袋模型BoW视角变换仿射不变商品图像搜索

大数据环境下的元数据存储管理算法的研究和实现

随着互联网行业规模的大力发展，数据存储量已由原来的TB跃升到PB、EB乃至ZB，大量结构化、半结构化和非结构化的数据面临着统一处理和分析。在这种背景下，大数据技术应用而生，大数

学位

大数据处理元数据存储管理缓存策略

基于云计算的数据库关键词查询技术研究

关系数据库关键词搜索为不了解数据库模式、不具备结构化查询语言知识的普通用户提供了一种有效获取数据库信息的方式,越来越受到研究人员的关注。许多研究把关系数据转换成

学位

查询并行计算Map ReduceSpark

基于SAGE的分布式虚拟现实框架

分布式虚拟现实技术是近年来科研与工程领域的热点。然而,在分布式虚拟现实系统的研发过程中,为了达到真实且实时的沉浸感和交互性能,设计者需要应对许多问题,主要包括如何降

学位

虚拟现实分布式计算SAGE

基于网络的外语学习系统平台的研究与实现

基于网络的外语学习平台是目前网络技术研究的热点之一，它将改变现有的外语学习环境和教学模式，极大地提高外语学习效率。现有的外语学习平台只能在客观题上给学生标准答案，而无

学位

外语学习系统口语训练语音处理神经网络小波变换

地址翻译协议NAT—PT的研究

IPv6是IETF制定的新一代网际协议,以取代目前地址日渐短缺的IPv4协议。尽管IPv6能够解决地址匮乏的问题,但是从IPv4过渡到IPv6还需要很长一段时间,在此期间,所有新增的IPv6网

学位

IPv6过渡机制NAT-PTDNS-ALG协议翻译

文档安全保护系统中防主动泄密关键技术研究与实现

随着网络技术的发展,越来越多的机密信息被存储到企业内部网络的计算机上。虽然企业在保障信息安全上投入了大量的资金,但因为信息泄漏而给企业带来的损失仍呈逐年上升趋势。

学位

文档安全保护主动泄密监控剪贴板打印菜单

基于跳频技术的反恐排爆机器人通信系统研究

当今世界,反恐作战已成为世界各国捍卫国家安全与利益的重要内容。但由于反恐作战的特殊性,安保人员时常会冒着生命危险去排查一些可疑爆炸物,这项任务难免会让人感到极度恐

学位

反恐排爆机器人跳频通信抗干扰软件跳频同步

长江河道采砂监测系统的设计与实现

长江是沿岸地区经济发展的重要支柱,是长江水运交通的主动脉。但近些年,长江中下游河道乱采滥挖江砂问题越来越突出,严重威胁了长江河道的安全以及长江防洪。由于长江中下游

学位

嵌入式系统监测系统视频压缩PXA272Windows XP Embedded

基于XML的Web文本挖掘应用研究

与本文相关的学术论文