XML在Web数据挖掘中的应用

来源 :第五届全国数字博物馆与文化自然遗产数字化及保护研讨会 | 被引量 : 0次 | 上传用户:qingqing20090756
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在Internet上有海量的数据,并且Web数据所具有的半结构化特性使得Web数据挖掘更加复杂,已有的一些Web数据挖掘技术难以很好地解决这些问题。而XML语言既可以作为一种中间数据格式,又可以用来定义一致的数据结构,为Web数据挖掘提供了一种新的解决方法。本文分析了XML文档的数据结构,提出了一种对原始HTML文档进行分析并转换成XML文档的Web数据挖掘模式。
其他文献
期刊
提出了一种结合支持向量机和主成分分析进行文本分类的算法。算法利用主成分分析对文档-词矩阵进行降维,并根据设定的阈值选择表示文本的特征向量。基于一对多的策略为每类文
会议
期刊
期刊
小设备改变大世界:史蒂夫·乔布斯在2001年10月23日发布的iPod,不仅保住了苹果公司,也彻底颠覆了整个音乐市场。  2001年,苹果公司陷入危机:在前一财政年度,苹果公司的营业额下跌了33%,亏损约为2500万美元。更让人吃惊的是,这一年,史蒂夫·乔布斯没有推出任何新的电脑产品以扭转困境。事实上,苹果选择了推出一款新的MP3播放机,并进入数字音乐市场。对乔布斯而言,推出iPod的理由非常简单
期刊
数据库是数据存储和查询的重要的工具,本文介绍了一种在MySql数据库中嵌入自定义的存储引擎的方法。如何从查询效率,存储空间利用率,数据增加,删除,修改操作方便和高效等角度
对传统的加权关联规则进行了改进,较好地平衡了支持度与权值之间的关系。同时结合水平型与垂直型加权关联规则的优点,提出混合型加权关联规则模型。进而应用该模型对网络连接
互联网孕育了一大批网络英雄,这是一个神奇的舞台.如今,舞台上又在上演一场新的争霸赛,移动互联网之战正在徐徐拉开大幕.这是新一轮互联网产业革命,各路英豪从四面八方汇聚起
期刊
为了更准确地得到互联网新闻主题词,本文在研究中,借鉴了基于二元自动切分的索引机制。在新闻主题词提取时,选用二元切分,并充分利用新闻自身的文体特性,弱化了对字典的依赖,
也许恶意软件开发者正在庆祝他们所获得的巨大成功。2011年3月安全专家在Android电子市场发现了超过50多个不安全的应用程序,仅在德国几天之内恶意软件就已经感染约20万的设备。这些恶意程序伪装成系统工具、游戏和色情程序,主要盗取用户个人资料,包括移动设备的国际移动用户识别码(IMEI/IMSI,通过这些信息攻击者可以假冒用户的身份,订购服务商提供的各种收费商品与服务)。一部分恶意程序不仅盗取用
期刊