XML在Web数据挖掘中的应用

来源 :第五届全国数字博物馆与文化自然遗产数字化及保护研讨会 | 被引量 : 0次 | 上传用户：qingqing20090756

【摘要】

：

在Internet上有海量的数据,并且Web数据所具有的半结构化特性使得Web数据挖掘更加复杂,已有的一些Web数据挖掘技术难以很好地解决这些问题。而XML语言既可以作为一种中间数据

【作者】

：

董俊卢海涛

【机构】

：

燕山大学信息科学与工程学院秦皇岛 066004

【出处】

：

第五届全国数字博物馆与文化自然遗产数字化及保护研讨会

【发表日期】

：

2007年期

【关键词】

：

数据挖掘技术数据结构中间数据格式文档挖掘模式半结构化转换语言特性方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在Internet上有海量的数据,并且Web数据所具有的半结构化特性使得Web数据挖掘更加复杂,已有的一些Web数据挖掘技术难以很好地解决这些问题。而XML语言既可以作为一种中间数据格式,又可以用来定义一致的数据结构,为Web数据挖掘提供了一种新的解决方法。本文分析了XML文档的数据结构,提出了一种对原始HTML文档进行分析并转换成XML文档的Web数据挖掘模式。

其他文献

4款杀毒软件横向评测安全的云时代

期刊

基于支持向量机的文本分类技术研究

提出了一种结合支持向量机和主成分分析进行文本分类的算法。算法利用主成分分析对文档-词矩阵进行降维,并根据设定的阈值选择表示文本的特征向量。基于一对多的策略为每类文

会议

绿色工艺与绿色工厂

期刊

移动市场半年盘点复苏的精彩

期刊

iPod十年

小设备改变大世界：史蒂夫·乔布斯在2001年10月23日发布的iPod，不仅保住了苹果公司，也彻底颠覆了整个音乐市场。　　2001年，苹果公司陷入危机：在前一财政年度，苹果公司的营业额下跌了33％，亏损约为2500万美元。更让人吃惊的是，这一年，史蒂夫·乔布斯没有推出任何新的电脑产品以扭转困境。事实上，苹果选择了推出一款新的MP3播放机，并进入数字音乐市场。对乔布斯而言，推出iPod的理由非常简单

期刊

MySql存储引擎的研究和实现

数据库是数据存储和查询的重要的工具,本文介绍了一种在MySql数据库中嵌入自定义的存储引擎的方法。如何从查询效率,存储空间利用率,数据增加,删除,修改操作方便和高效等角度

会议

存储引擎数据存储自定义数据库空间利用率试运行设计数据模型系统存储格式查询效率嵌入工具方法等角操作

混合型加权关联规则的数据分析

对传统的加权关联规则进行了改进,较好地平衡了支持度与权值之间的关系。同时结合水平型与垂直型加权关联规则的优点,提出混合型加权关联规则模型。进而应用该模型对网络连接

会议

混合型加权关联规则网络连接关联规则模型行为规则数据解决方案支持度时效性结合水垂直型应用入侵权值平型检测

7款Android手机浏览器横向评测

互联网孕育了一大批网络英雄,这是一个神奇的舞台.如今,舞台上又在上演一场新的争霸赛,移动互联网之战正在徐徐拉开大幕.这是新一轮互联网产业革命,各路英豪从四面八方汇聚起

期刊

基于二元切分的互联网新闻主题词自动提取研究

为了更准确地得到互联网新闻主题词,本文在研究中,借鉴了基于二元自动切分的索引机制。在新闻主题词提取时,选用二元切分,并充分利用新闻自身的文体特性,弱化了对字典的依赖,

会议

切分互联网新闻主题词提取文体特性位置信息未登录词索引机制方法字典证明元词实验获取处理

手机病毒:风险与日俱增

也许恶意软件开发者正在庆祝他们所获得的巨大成功。2011年3月安全专家在Android电子市场发现了超过50多个不安全的应用程序，仅在德国几天之内恶意软件就已经感染约20万的设备。这些恶意程序伪装成系统工具、游戏和色情程序，主要盗取用户个人资料，包括移动设备的国际移动用户识别码（IMEI/IMSI，通过这些信息攻击者可以假冒用户的身份，订购服务商提供的各种收费商品与服务）。一部分恶意程序不仅盗取用

期刊

XML在Web数据挖掘中的应用

与本文相关的学术论文