浅析Web内容挖掘技术

来源 :艺术科技 | 被引量 : 0次 | 上传用户:mmllpp000
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:随着因特网的飞速发展,各种信息可以以非常低的成本在网络上获得,这样因特网的迅速发展对万维网信息的查找与发现提出了巨大的挑战。对于大多数用户提出的与主题或领域相关的查询需求,传统的通用搜索引擎往往不能提供令人满意的结果网页,所以Web挖掘技术便应运而生,并引起了人们的极大兴趣。本文主要对Web内容挖掘的概念及相关技术进行了分析与讨论。
  关键词:Web内容挖掘;文本挖掘;非结构化文档
  随着Internet的迅猛发展,信息容量呈爆炸性增长趋势,然而信息检索工具和分析工具的相对落后,导致了信息过载。目前,人们从Web上获取信息的主要途径是通过搜索引擎,搜索引擎虽然部分地解决了资源发现问题,但其精度不高,不能为用户提供结构化信息,也不能提供文档分类、过滤等功能。因此,人们迫切需要能够从Web上快速、准确、有效地获取所需资源和有用模式的方法和技术,Web挖掘技术便应运而生,并引起人们的极大兴趣。人们将传统的数据挖掘技术和Web相结合,进行Web挖掘,从半结构或无结构的Web页面中,以及使用者的活动中,抽取感兴趣的、潜在的模式,分析、研究,并加以利用。
  1Web内容挖掘的定义
  Web内容挖掘是指从Web上的网页内容及其描述信息中获取潜在的、有价值的知识模式,从文本、图像、音频、视频、动画等各种形式的网络资源中发现所需的特定化信息,以实现Web资源的自动检索,提高Web数据利用率的过程。总体上说,有Web文本挖掘和Web多媒体挖掘。Web文本挖掘是对Web上的大量文档集合的内容进行总结、分类、聚类和关联分析等。Web多媒体挖掘是指从Web多媒体数据如音频、视频、数据和图像等中抽取事先未知的、隐藏的、完整的和新颖的知识。Web内容挖掘可以看作是Web信息检索(IR)和信息抽取(IE)的结合。目前的研究主要集中在词频统计、分类算法、机器学习、元数据(Meta Data)、部分HTML 结构信息发现、数据间隐藏的模式(Pattern)发现并生成抽取规则(Extraction Rule),从页面中分离出概念(Concept)和实体(Entity)数据。此外,文本挖掘也可以认为是Web 内容挖掘的组成部分之一,其不仅指的是单独文档中的信息提取,同时也包括分析文档集合的模式和趋势。文本挖掘包括对文本的分类/归类,涉及到决策树等算法。当前Web内容挖掘侧重的是从文档中抽取有关事实,它对文档和知识的结构和表达感兴趣。
  2Web内容挖掘的关键技术
  Web上的内容挖掘多为基于文本信息的挖掘,它和通常的平面文本挖掘的功能和方法比较类似。利用Web文档中部分标记,如Title、Head等包含的额外信息,可以提高Web文本挖掘的性能。Web文本挖掘的关键技术主要包括文本的表示模型、文本特征的选取算法、Web挖掘的分类算法、聚类算法、主题探测和追踪算法和模型评测指标。其中有关文本的表示模型、文本特征的选取算法、Web挖掘的分类算法、聚类算法和模型评测指标的研究国外已经有大量的研究成果。文本总结:文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。其目的是对文本信息进行浓缩,给出它的紧凑描述。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本分类:分类是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。文本聚类:文本聚类把一组文档按照相似性归成若干类别。方法大致可分为层次凝聚法和平面划分法两种类型。关联规则:发现关联规则的算法通常要经过以下三个步骤:连接数据,作数据准备;给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。
  3从资源查找(Information Retrieval)的观点挖掘非结构化文档
  非结构化文档主要指Web上的自由文本,包括小说、新闻等。在这方面的研究相对比较多一些,大部分研究都是建立在词汇袋(bag of words)或称向量表示法(vector representation)的基础上,这种方法将单个的词汇看成文档集合中的属性,只从统计的角度将词汇孤立地看待而忽略该词汇出现的位置和上下文环境。属性可以是布尔型,根据词汇是否在文档中出现而定,也可以有频度,即该词汇在文档中的出现频率。这种方法可以扩展为选择终结符、标点符号、不常用词汇的属性作为考察集合。词汇袋方法的一个弊端是自由文本中的数据丰富,词汇量非常大,处理起来很困难,为解决这个问题人们做了相应的研究,采取了不同技术,如信息增益,交叉熵、差异比等,其目的都是为了减少属性。另外,一个比较有意义的方法是潜在语义索引(Latent Semantic Indexing),它通过分析不同文档中相同主题的共享词汇,找到他们共同的根,用这个公共的根代替所有词汇,以此来减少维空间。例如:“informing”、“information”、“informer”、“informed”可以用他们的根“inform”来表示,这样可以减少属性集合的规模。其他的属性表示法还有词汇在文档中的出现位置、层次关系、使用短语、使用术语、命名实体等,目前还没有研究表明一种表示法明显优于另一种。
  4用资源查找(Information Retrieval)的观点挖掘半结构化文档
  与非结构化数据相比,Web上的半结构化文档挖掘指在加入了HTML、超连接等附加结构的信息上进行挖掘,其应用包括超连接文本的分类、聚类、发现文档之间的关系、提出半结构化文档中的模式和规则等。
  5从数据库(Database)的观点挖掘非结构化文档
  数据库技术应用于Web挖掘主要是为了解决Web信息的管理和查询问题。这些问题可以分为三类:Web信息的建模和查询;信息抽取与集成;Web站点建构和重构。从数据库的观点进行Web内容挖掘主要是试图建立Web站点的数据模型并加以集成,以支持复杂查询,而不止是简单的基于关键词的搜索。这要通过找到Web文档的模式、建立Web数据仓库或Web知识库或虚拟数据库来实现。相关研究主要是基于半结构化数据进行的。数据库观点主要利用OEM(Object Exchange Model)模型将半结构化数据表示成标识图。OEM中的每个对象都有对象标识(OID)和值,值可以是原子类型,如整型、字符串型、gif、htm等,也可以是一个复合类型,以对象引用集合的形式表示。由于Web数据量非常庞大,从应用的角度考虑,很多研究只处理半结构化数据的一个常用子集。一些有意义的应用是建立多层数据库(MLDB),每一层是它下面层次的概化,这样就可以进行一些特殊的查询和信息处理。对于在半结构化数据上的查询语言研究也得到了人们的重视并做了专题研究。由于在数据库观点下数据的表示方法比较特殊,其中包含了关系层次和图形化的数据,所以大部分建立在扁平数据集合之上的数据挖掘方法不能直接使用,目前已经有人针对多层数据库挖掘算法进行研究。
  基于以上分析,Web内容挖掘在特定领域尤其是搜索引擎的研究上将成为一个重要的应用方向,而基于Web 挖掘和信息检索的智能搜索引擎及相关技术的研究,将Web 挖掘技术与搜索引擎技术相结合,向用户提供个性化、智能化的服务,也是下一步互联网技术发展的方向之一。
  参考文献:
  [1] Kosala R,Blockeel H.Web Mining Research[M].ASurvey.SIGKDDExlloration,2000.
  [2] 谢丹夏.Web上的数据挖掘技术和工具设计[J].计算机工程与应用,2000(1):57.
  [3] 韩家炜,孟小峰,王静.挖掘研究[J].计算机研究与发展,2001(4):1720.
  [4] 涂承胜,鲁明羽.陆玉昌Web 挖掘研究综述[J].计算机工程与应用,2003(2):47.
  [5] 朱丽红,赵燕平.Web 挖掘研究综述[J].情报技术,2004(7):36.
  [6] 岳岩,郑丽英.Web挖掘技术研究[J].科技咨询导报,2007(3):3434.
  作者简介:崔敏(1979—),女,山东滨州人,硕士,山东省东营职业学院教师教育学院教师,主要研究方向:计算机应用技术。
其他文献
在广告中除了画面去吸引消费者,还有一项非常重要元素就是文案。文案制作成功,创意的力量才能够得到充分的体现和发挥。平面广告方案的创意说白了就是要撰写出与众不同的、优秀
可控压密注浆是在压密注浆的基础上发展起来的一种新型地基加固技术.本文采用地质雷达无损技术对神木县采兔沟水库泄洪洞可控压密注浆地基加固效果进行检测,发现:经过可控压密
对意义疗法的概念及内涵、具体方法、评估工具及现阶段意义疗法在癌症病人中的应用实践进行综述。强调意义疗法对癌症病人心理状态的积极作用,以期为护理实践提供依据。
摘要:加强社区文化建设,充分发挥城市社区文化对社区建设的重要作用,进而有效地推进城市现代化建设,已成为构建和谐社会的必然要求。加强社区文化基础设施建设,就必须改善居民业余文化活动条件;加强社区文化管理队伍的培训,促进社区文化规范化管理;培育业余文艺队伍,打牢社区文化发展基础;开展丰富多彩的社区文化活动,用先进的文化占领基层阵地。总之,发展社区文化不仅实践“三个代表”重要思想和落实“以人为本”科学发
目的 探讨急性胆囊炎患者行腹腔镜胆囊切除术后的护理方法.方法 选取我院2016年11月~2017年11月收治的80例行腹腔镜胆囊切除术的急性胆囊炎患者,将其随机分为对照组和观察组
椎管内阻滞是目前应用最为广泛、安全有效的分娩镇痛方法,近期的技术进展如硬脊膜穿破硬膜外穿刺技术、程控间歇硬膜外脉冲给药技术、超声辅助定位和硬膜外导管改良等使其有
摘 要:近年来,随着《职来职往》、《寻找职场杜拉拉》等节目的兴起,职场类电视真人秀节目已成为一种引起广泛关注的节目类型。本文将从当前最具影响力之一的职场真人秀节目《非你莫属》为例,总结职场真人秀节目的新特征,浅探节目存在的突出问题。  关键词:职场;电视真人秀;存在问题  从2010年底开始,职场类电视真人秀节目再起旋风,轮番上阵。从《非你莫属》到《职来职往》,从《绝对挑战》到《寻找职场杜拉拉》,
近几年,随着驼产业的快速发展,骆驼由传统的放牧方式转变为舍饲半舍饲的现代养殖方式,随之而来的各种骆驼疾病给骆驼养殖造成了一定的阻碍,同时给牧户带来了较大的经济损失。
熟悉凤凰卫视《一虎一席谈》的人,或许对江永雄那张棱角分明的国字脸不会陌生。在那个节目的嘉宾席上,江永雄是一位常客。
综述国内外慢性伤口疼痛管理模式,评价各模式的优缺点,以期为临床护理实践提供更加有效的疼痛管理模式,改善慢性伤口病人的预后。