Web数据挖掘技术应用

来源 :职业时空 | 被引量 : 0次 | 上传用户:xiao203
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要Web数据挖掘是目前信息技术中的研究热点,它是现代科学技术相互渗透融合的必然结果。文章首先介绍了web 数据挖掘的含义,重点讨论了web 数据挖掘的类型以各种类型的web 数据挖掘的基本过程以及它们所使用的一些相关技术及应用,并对数据挖掘的发展前景和方向进行了展望。
  关键词数据挖掘;Web数据挖掘;相关技术
  
  引言
  
  随着Internet 的进一步发展和完善,各种基于Internet的应用业务也如雨后春笋般的发展起来,例如网上商店、网上银行、远程教育、远程医疗等。我们应该看到Internet在给我们带来机遇的同时也带来了挑战,它使得WWW 上的一些主要工作, 例如Web 站点设计、Web 服务设计、Web 站点的导航设计、电子商务等工作变得更为复杂更为繁重。对于网站经营方来说,他们需要更好的自动辅助设计工具, 可以根据用户的访问兴趣、访问频度、访问时间动态的调整页面结构,改进服务, 开展有针对性的电子商务以更好的满足访问者的需求。解决这种需求的一个有利的工具就是Web 数据挖掘。
  
  1. Web 数据挖掘概述
  
  Web挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息学等多个领域。Web挖掘就是从Web 文档、Web活动中抽取感兴趣的、潜在的有用模式和隐藏信息。Web 挖掘是指从大量Web文档结构和使用的集合C中发现隐含的模式p。如果将C看作输入,p看作输出,那么Web挖掘的过程就是从输入到输出的一个映射ξ:C→p
  Web挖掘从数据挖掘发展而来,因此其定义与我们熟知的数据挖掘定义相类似,都是在对大量的数据进行分析的基础上,作出归纳性的推理,预测客户的行为,帮助企业的决策者调整市场策略,减少风险,作出正确的决策的过程。但是对Web 进行有效的资源和知识挖掘面临极大的挑战:(1)对有效的数据仓库和数据挖掘而言,Web 似乎太庞大了。(2)Web页面的复杂性高于任何传统的文本文件。(3) Web是一个动态性极强的信息源。(4) Web上的信息只有很小的一部分是相关的或有用的。这些挑战推动了如何有效地发现和利用Internet 的资源的研究工作。
  1.1 与传统的数据挖掘相比较
  1.1.1 数据源具有很强的动态性。
  1.1.2 挖掘目的的模糊性。
  1.1.3 数据类型的多态性。
  1.1.4 数据信息的分布性、多维性。
  1.2 Web 数据的特点
  1.2.1 数据量巨大
  Internet把分布于世界不同位置的电脑(服务器)连接了起来,每个电脑上都存有丰富的数据,这些数据涉及各种不同的行业和领域,又由于连接于Internet 的电脑数量非常巨大。
  1.2.2 异构数据库环境
  每一个Web站点都可以看作是一个数据源,由于各站点是相互独立的, 之间除了可以互相访问之外并没有任何关系,所以每个站点之间的信息及信息组织方式都是不相同的,这就构成了一个巨大的异构数据库环境。
  1.2.3半结构化的数据结构
  Web上的数据与传统数据库中的数据不同之处还在于传统数据库都有一定的模型,可以根据数据模型来对具体的数据进行描述,而Web 站点中的数据不存在统一的模型,各站点都是独自设计,并且站点中的数据是处于不停变化之中的。
  
  2.Web数据挖掘相关技术
  
  Web 挖掘应用非常广泛,对Web挖掘相关技术的研究也很多,针对上述不同类别的Web 挖掘,有不同的相关技术,下面分别介绍。一般地,Web挖掘可以分为三类:Web 内容挖掘(Web content mining)、Web 结构挖掘(Web structure mining)、和Web 使用模式的挖掘(Web usage mining) 。
  2.1技术分类
  2.1.1Web内容挖掘
  Web内容挖掘是从文档内容或其描述中抽取知识的过程。主要有两种策略:直接挖掘文档的内容,或在其它工具搜索的基础上进行改进。采用第一种策略的有针对Web 的查询语言WebLOG,利用启发式规则来寻找个人主页信息的AHOY等。采用第二种策略的方法主要是对搜索引擎的查询结果进行进一步的处理,得到更为精确和有用的信息。属于该类的有WebSQL,及对搜索引擎的返回结果进行聚类的技术等。
  2.1.2 Web 结构挖掘
  Web 结构挖掘是从WWW的组织结构和链接关系中推导知识。由于文档之间的互连WWW能够提供除文档内容之外的有用信息。利用这些信息,可以对页面进行排序发现重要页面。这方面的代表有PageRank〗和CL EVER,此外,在多层次Web数据仓库(MLDB)中也利用了页面的链接结构。
  2.1.3 Web 使用挖掘
  Web使用挖掘的主要目标是从Web 的访问记录中抽取感兴趣的模式。WWW 中每个服务器保留了访问日志,记录关于用户访问和交互的信息。分析这些数据可以帮助理解用户的行为从而改进站点的结构,或为用户提供个性化的服务。
  2.2 Web 数据挖掘研究领域及发展
  2.2.1 Web 数据挖掘的研究领域类型根据对Web 数据的感兴趣程度不同,Web 挖掘一般可以分为三类: 网络内容挖掘(Web Content mining) 、网络结构挖掘(Web structure mining) 、网络用法挖掘(Web usage Mining)
  2.2.2 网络内容挖掘网络信息内容是由文本、图像、音频、视频、元数据等形式的数据组成的。网络内容挖掘就是一个从网络信息内容中发现有用信息的过程。由于网络信息内容有很多是多媒体数据, 因此网络内容挖掘也将是一种多媒体数据挖掘形式。
  2.2.3 网络结构挖掘网络结构挖掘就是挖掘Web潜在的链接结构模式。通过分析一个网页链接和被链接数量以及对象来建立Web自身的链接结构模式。这种模式可以用于网页归类,并且由此可以获得有关不同网页间相似度及关联度的信息。网络结构挖掘有助于用户找到相关主题的权威站点。
  2.2.4网络用法挖掘网络内容挖掘和网络结构挖掘的挖掘对象是网上的原始数据,而网络用法挖掘面对的则是在用户和网络交互的过程中抽取出来的第二手数据,包括网络服务器访问记录、代理服务器日志记录、浏览器日志记录、用户简介、注册信息、用户对话或交易信息、用户提问方式等。通过网络用法挖掘,可以了解用户的网络行为数据所具有的意义。
  2.3 Web数据挖掘的四个步骤
  2.3.1查找资源:任务是从目标Web 文档中得到数据。
  2.3.2信息选择和预处理:任务是从取得的Web资源中剔除无用信息和将信息进行必要的整理。2.3.3模式发现:自动进行模式发现。可以在同一个站点内部或在多个站点之间进行。
  2.3.4模式分析: 验证、解释上一步骤产生的模式。
  
  3. Web数据挖掘的应用
  
  3.1 Web挖掘在搜索引擎方面的应用
  通过对网页内容的挖掘,可以实现对网页的聚类和分类,实现网络信息的分类浏览与检索。运用Web挖掘技术改进关键词加权算法,提高网络信息的标引准确度, 改善检索效果。参与搜索服务市场的有多家实力企业,如Google、雅虎(Yahoo!) 及微软(Microsoft) 等巨头企业, 以及若干规模较小但有特定市场区隔或技术者如dTSearch、Copernic 等Google 提供更多的技术,会自动找寻常用的字词,尽量缩短搜索时间,提高效率。
  3.2Web挖掘在电子商务方面的应用
  Web挖掘这方面的应用可以为企业更有效的确认目标市场、改进决策获得更大的竞争优势提供帮助,从中可得到商家用于特定消费群体或个体进行定向营销的决策信息。电子商务方面的Web挖掘功能主要是如下几个方面:首先,客户分类和客户聚类。对Web 的客户访问信息进行挖掘,对客户进行分类分析。应用聚类分析对客户进行分组, 并且分析组中客户的共同特征, 这样就可以让商家更好了解自己的客户, 向客户提供更有针对性的服务。其次是找到潜在的客户。在对Web 的客户访问信息的挖掘中, 利用分类技术可在因特网上找到未来的潜在客户。最后保留客户的驻留时间, 对于客户而言,在网上每个销售商对于客户来说都是一样的, 如何尽量使客户在自己的网上驻留更长的时间, 这样对于商家才能有更多客户和更大的利润空间。
  3.3 Web 数据挖掘在网络教育中的应用
  教育网络化的趋势不仅为学生提供了便利的学习方式和广泛的选择,也为学校提供了更加深入了解学生需求信息和学生行为特征的可能性。由于受教育对象个体之间存在着极大的差异性,网络教学也必须是一种适应个别化学习需求的个性化教学。这种个性化教学的提供,是通过将传统的数据挖掘(Data Mining) 同Web 结合起来,进行Web 数据挖掘,即从Web 文档和Web 活动中抽取学生感兴趣的潜在的有用模式和隐藏的信息,作为对学生提供个性化教学服务的依据,协助管理者优化站点结构,提高站点效率,更好地为网络教育服务。
  3.4在网站设计中的应用
  在网站设计方面中的应用,主要是通过对网站内容的挖掘,特别是对文本内容的挖掘,可以有效地组织网站信息,如采用自动归类技术实现网站信息的层次性组织;通过对用户访问日志记录信息的挖掘,把握用户感兴趣的信息,从而有助于开展网站信息推送服务以及个人信息的定制服务,吸引更多的用户。
  
  4. 结束语
  
  社会的发展越来越离不开信息的传播与使用,在数据量急剧增长的情况下如何高效地检索出使用者需要的信息更加显得重要,Web 数据挖掘正是因为满足了这方面的需要才能获得如此迅速的发展, Web 挖掘技术也将成为重要的研究课题和方向。
  
  参考文献
  [1] 曼丽春, 朱宏, 杨全胜. Web 数据挖掘研究与探讨[J].现在电子技术2005 (8) :3~6
  [2] 夏火松. 数据仓库与数据挖掘技术[M]. 科学出版社,2004.207- 227.
  [3] Jiawei Han,Micheline Kamber.DataMining:Concept and Techniques[M].Morgan Kaufmann Publishers,Inc 2001.272- 312.
  [4] 陈文伟.黄金才.赵新昱.数据仓库与数据挖掘技术[M].北京:北京大学出版社,2002.1- 14.
  [5] 王继成.潘金贵.Web 文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513- 520.
  (作者单位:浙江理工大学)
其他文献
关键词: 信息时代;教育信息;教师角色;    一、信息时代教育的新特点    信息时代,社会经济有了飞速的发展,社会走向了信息化,教育也走向了信息化,具有了新的特点和变化,具体表现在:  (一)教育信息来源的变化  随着信息技术的发展,教育信息呈现出开放性、多元性、动态性的特点,教师和教材不再是信息的唯一来源,互联网的开放性与资源共享特性,使信息在很短时间内就会发生翻天覆地的变化,网络技术和通讯
期刊
摘 要:本文分析了新形势下研究生党建工作的特点,积极探索研究生党员教育管理评价体制,对以学术团队(课题组)设立党支部的情况下,在研究生党建工作中实行"述责答辩"制度进行了积极的思考。  关键词:研究生 党建工作 述责答辩    研究生既是大学生中的高层次人才,也是高校中最富创造力的群体之一。研究生党建工作是培养社会主义事业骨干人才的重要组成部分,做好研究生党建工作,对确保研究生党员质量和党员队伍的
期刊
摘 要:高校把思想政治教育纳入和谐社会的视野,是和谐社会发展的要求。为了更好的为和谐社会服务,大学生的思想政治教育工作必须创新,集中体现在建立新的教育观念、教育内容、教育方法等方面。  关键词:和谐社会 思想政治教育 创新    社会的和谐发展是以各种组织和个人的和谐发展为基础的,高校作为一个社会的特殊的群体,是培养人才的摇篮,是构建社会主义和谐的社会的重要阵地。大学生是党和国家的宝贵人才资源,是
期刊
摘 要:本文介绍了通过整合FPGA和PCB设计工具以及采用高密度互连(HDI)等先进的制造工艺优化PCB设计的基本方法,也概述了利用FPGA的灵活I/O特性降低PCB制造成本的方法。  关键词:PCB设计 FPGA设计 FPGA I/O设计数据 PCB布线    电子工业背后的推动力是对更快、更便宜的产品的需求以及在竞争厂商之前将产品推向市场。IC技术的进步一直以来就是促使功能增加和性能提高的主要
期刊
摘 要:面对严峻的安全生产形势和安全专业人才危机,本文论述了建立安全科技英语专业的迫切性和现实性,重点探讨了建立安全科技英语专业亟待解决的几个问题:a. 政策上的支持;b. 课程体系的建立;c. 教材建设;d. 师资队伍建设。  关键词:安全科技英语专业;培养目标;课程体系;教材;师资队伍    1.建立安全科技英语专业的紧迫性和现实性    温家宝总理在十届全国人大四次会议《政府工作报告》中明确
期刊
摘 要: EDA是一门刚刚发展起来的电子产品自动设计的新技术,内容丰富。EDA在各个领域被广泛运用,发挥着巨大的作用,例如教学、科研、产品设计与制造等,并且其工具越来越多样、软件功能越来越强大。今后EDA的应用将趋于普遍,会进一步的得到政府的重视,技术愈发成熟完善。  关键字:EDA 电子设计自动化 设计工具 应用领域 发展趋势    一、EDA技术的概念    EDA是电子设计自动化(Elect
期刊
1. 小b型课件开化开发方法    教学方法与手段的改革已成为教学改革的重要内容,校园网络平台的建立已为教学方法和手段的改革与创新创造了良好的条件,各校对计算机辅助教育(CAI)展开了积极的研究与应用推广,课件开发更是成果倍出,能开发CAI课件已成为教师必备的基本技能,好的课件不但可提高教学效果和学习效率,而且能突出个性化教育,在我院汽车电气个性化CAI课件开发中,应用工程化的软件开发方法,提出了
期刊
摘 要:本文从我国大学生医疗保障的现状及出现的问题入手,对建立多层次的医疗保障制度进行初步设想,并结合近几年我国大学生医疗保险商业性经营的实践,同时借鉴国外大学生医疗保险的经验,对建构“强制实行、政府补贴、商业运作、规范管理”的大学生医疗保险体系和模式进行了探讨。  关键词:医疗保险体系 医疗保障制度 管理模式 着力点    随着高等教育体制和医疗卫生体制改革的进一步深入,我国2500多万在校大学
期刊
摘要:我国正面临着教育改革的艰巨任务,而工科院校函授教育课程设计改革是其中的重要环节,本文针对目前高校函授教育和函授学员的特点,提出了函授教育课程设计改革的重要措施,强调了在课程设计过程中,应用Multisim8软件进行仿真实验的必要性。  关键词:函授教育、课程设计、仿真实验。    在目前的教育体系中,普通高等学校是坚持"两条腿"走路的办学方针,把举办函授 教育当作高等学校的办学内容之一。国家
期刊
大学生人生观就是大学生对人生价值和意义的根本看法和态度,属于主观意识范畴。积极主动正确的人生观对学生事业的成功有巨大的促进作用,消极被动错误的人生观对个人的发展起着误导、阻碍作用。大学生们外在的语言、举止、服饰,内在的认识、思想、希望,都与自己的人生观有着紧密的联系。北京某大学一名女大学生,高中时是老师喜欢、同学羡慕的佼佼者,上了大学后,她发现各方面优秀者比比皆是,自己显得微不足道、可有可无,觉得
期刊