Web挖掘技术在竞争情报活动中的应用浅析

来源 :硅谷 | 被引量 : 0次 | 上传用户:ahanyin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]网络环境下竞争情报的获取已经成为企业提高自身竞争力的一个重要的途径与来源。Web挖掘作为一种有效的技术工具,也开始在竞争情报活动中逐渐得以推广与应用。本文主要就对web挖掘及其在竞争情报活动中的实现进行了简单介绍。
  [关键词]web挖掘 竞争情报
  中图分类号:TP3文献标识码:A文章编号:1671-7597 (2008) 0110046-01
  
  一、竞争情报活动中web挖掘的必要性
  
  随着经济全球化和全球信息化的逐渐深入,我国企业发展也面临巨大的挑战。在激烈的市场竞争中,企业只有明确自己所处的国内和国际环境,掌握竞争对手信息,制定准确的竞争战略,才能使企业立于不败之地。互联网的出现,为企业开展竞争情报工作提供了巨大的信息源。要想提升企业竞争力,企业竞争情报的搜集范围,相应的就应该扩展到Internet上来。
  Internet上竞争情报源由于其数量巨大且获取成本相对较低,目前它已经成为企业获取竞争情报的一个重要途径。但是,我们同时也要意识到,不同于一般的竞争情报源, Internet竞争情报源的内容更为复杂,此外,它还具有开放性、异构性、动态性、半结构化、非结构化的特点。因此,这就需要我们寻求一种新的情报处理和分析工具,协助企业对大量散布在互联网上的数据进行深层分析,就像从矿石中淘金一样,获得有利于商业运作、提高竞争力的信息,这就是web挖掘。
  
  二、Web挖掘的分类
  
  web挖掘是一门综合技术,涉及到Internet技术、人工智能、计算机语言学、信息学、统计学等多个领域。依据挖掘对象的不同,web挖掘又可以分为以下三个方面:
  (一)web内容挖掘。Web内容挖掘是一种基于网页内容的web挖掘。是从大量的web数据中发现信息、抽取知识的过程。这些数据既有文本数据,也有图像、声频、音频等多媒体数据,既有来自于数据库的结构化数据,也有用HTML标记的半结构化数据和无结构的自由文本。
  (二)web结构挖掘。Web结构挖掘是从www的组织结构和连接关系中推导知识。Web结构挖掘通过分析一个网页链接和被链接数量以及对象,建立web自身的连接结构模式。这种模式可以用于网页归类,并且可以由此获得不同网页间相似度和关联度的信息。Web结构挖掘有助于用户找到相关主题的权威站点,并且可以指向众多权威站点的相关主题站点。
  (三)web使用挖掘。除了web内容和web链接结构以外,web挖掘的另一个重要任务是对web使用记录进行挖掘。Web内容挖掘和web结构挖掘的对象是网上的原始数据,而web使用记录的挖掘则与此不同,它面对的是在用户和网络交互的过程中抽取出来的第二手数据。它通过挖掘web日志记录和相关数据,从而发现用户访问web页面的模式。
  
  三、Web挖掘技术研究
  
  (一)Web内容挖掘实现技术。Web内容挖掘主要体现为对web文本的挖掘,包括对文本内容的总结、分类、聚类机关联分析等。1.文本总结。其目的是对文本信息进行浓缩,给出它的紧凑描述。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容。2.文本分类。分类的概念是在已有数据的基础上学会一个分类函数或构造出一个分类模型,即通常所说的分类器。分类器一般分为训练和分类两个阶段。3.文本聚类。文本聚类是一种典型的无教师的机器学习问题。目前的文本聚类方法大致可以分为层次凝聚法和平面划分法两种类型。聚类是把一组个体按照相似性归成若干类别,即“物以类聚”。4.关联规则。关联规则模式数据描述型模式,发现关联规则的算法属于无监督学习的方法。发现关联规则通常要经过以下3个步骤:连接数据,做数据准备;给定最小支持度和最小可信度,利用数据挖掘工具提供的算法发现关联规则;可视化显示、理解、评估关联规则。
  (二)用户使用记录挖掘实现技术。在挖掘Web用户使用记录时描述用户访问的数据包括:IP地址、参考页面、访问日期和时间、用户Web站点及配置信息。这些数据可以来自于服务器端、客户端、代理服务器端或者是公司的数据库。
  发现用户使用记录信息的方法有两种。一种方法是通过对日志文件进行分析,包含两种方式,是访问前先进行预处理,即将日志数据映射为关系表并采用相应的数据挖掘技术,如关联规则或聚类技术来访问日志数据;二是对日志数据进行直接访问以获取用户的导航信息。另一种方法是通过对用户点击事件的搜集和分析发现用户导航行为。
  
  四、Web挖掘在竞争情报系统中的应用
  
  (一)利用Web挖掘获取、开发和利用竞争对手和客户的信息。从Web挖掘技术的实现流程来看,Web挖掘不仅仅是像网络信息检索那样只是把符合查询要求的记录返回给用户,这样得到的结果集不仅数量庞大,而且包括很多不相关信息。正如前面所提到的,Web挖掘不仅能够从WWW的大量的数据中发现信息,而且它还能发现权威站点、有重要价值的“隐藏”信息,并且能够监视和预测用户的访问习惯、购买行为,并能够发现顾客购买模式趋势。
  (二)挖掘Web日志记录来发现用户访问Web页面的模式。通过分析和探究web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的互联网信息服务的质量和交付,并改进Web服务器系统的性能。挖掘Web日志访问纪录,有助于聚类用户并将用户分门别类,以便实现个性化的市场服务.
  (三)Web挖掘在反竞争情报活动中的应用。反竞争情报是企业竞争情报活动的重要组成部分,忽视竞争对手的竞争情报活动、低估竞争对手搜集竞争情报的能力势必导致企业失去已有的竞争优势。现在,已有越来越多的企业建立了自己的Web站点,企业上网已成为一股不可逆转的潮流。因此,对它进行监控是企业了解竞争对手的竞争情报活动的重要途径。在竞争情报计算机系统中,可以充分利用Web挖掘技术,通过运用分析访问者的IP地址、客户端历届域、信息访问路径等Web监控技术、统计敏感信息访问率等方法实现对竞争对手的防范,以达到识别竞争对手保护企业敏感性信息的目的。
  总之,作为一种新型的信息处理与分析技术,web挖掘的确在竞争情报活动中具有巨大的应用潜力。充分运用web挖掘来发掘蕴藏在互联网上的竞争情报资源,将会为企业竞争力的提升提供强大的支持与动力。
  
  参考文献:
  [1]秦铁辉等,企业竞争中 Internet上信息的获取和利用.情报学报,2002年06期。
  [2]苗杰,倪波,面向集成竞争情报系统的数据挖掘应用研究.情报学报,2001年04期。
  [3]霍艳蓉,孙成权,网络信息挖掘及其在竞争情报工作中的应用.情报杂志,2003年02期。
  [4]陈萍丽,Web挖掘及其在竞争情报系统的应用.情报科学,2003年09期
  [5]李广建等编著,网络竞争情报源.华夏出版社.2001年。
其他文献
虽说很少出现大吃一餐就胖一圈的囧事,也不会发生睡一觉就变苗条的奇迹,一切都是日积月累的生活习惯造成的。但女性的一生中,确实存在着一些容易发胖的“危险期”,不少人就是在这些时期体重“突飞猛进”,等惊觉时才发现原来的傲人身材已不复存在,增肥容易减肥难,从此与苗条无缘。本期,我们就来盘点下这些“易胖期”。  工作让你发胖  参加过同学聚会的都知道,上学时还是“豆芽菜”,工作几年后体型变得面目全非的大有人
期刊
生病吃药最自然不过,但吃药是不是就一定有效果?大多数人对正确吃药的理解是“遵医嘱”,一天几次,一次几片,只要吃对了就没有问题。但你知道,你所吃的食物可能会影响药效吗?有些食物能使药的吸收加强,而有些影响吸收甚至还会发生不良反应。本期,Bella总结了一些常见药物和食物的作用关系,教你做个聪明的“挑食者”。  西药6大克星  这6大食物在服用几乎所有西药时都要尽量避免,所以一并总结出来。  烟  服
期刊
射手座  幸运指数:★★★★★  吉日:12/25  霉日:12/19  幸运色:丁香色  幸运数字:8  开运一句话:双喜临门或可期  持续的付出会得到上司的嘉奖,工作前景顺利到有出国深造的机会,着实令同事友人嫉妒。知福惜福,珍惜现有的,但不要被表面现象所迷惑,多多付出才能更上一层楼。多注意身边一道玩的小伙伴,朋友的挪揄撮合可不是空穴来风。  白羊座  幸运指数:★★★☆☆  吉日:12/26 
期刊
送礼前 做好4点功课  有句话说得好:只选对的,不选贵的。“高明”的礼品既有利于患者情绪和病情康复,又能满足实际需要或患者喜好,如何选择也颇有学问。  了解病情  在去探望病人之前,有必要先向其家人简要了解一下病情。例如:他得的是什么病,病情重不重,治疗情况如何,病人的心理和情绪怎么样,等等。可通过各种途径了解该病的基本知识,不要送应忌口的食品或补品。  考虑地点  若病人住院可以送鲜花或便于携带
期刊
[摘要]加密技术的开发和研究其目的是为了寻找一种措施来保护我们的数据,防止被一些怀有不良用心的人所看到或者破坏。在网络安全状况日益严峻的情况下,需要一种强有力的安全措施来保护机密数据不被窃取或篡改。RSA密钥体制是公开密钥体制中最容易理解,也是应用最广泛的一种加密方法。深入研究RSA密钥体制的实现原理与实现算法,为该算法的实际应用提供基础。  [关键词]加密技术 公开密钥 RSA 信息摘要算法  
期刊
[摘要]文件系统是操作系统用以表明磁盘或分区上的文件的一种方法以及数据结构,也即磁盘上文件组织的方法。这个词也用于指一个用于存储文件的分区或磁盘,或者是指给定文件系统的类型。因此,某人可以说“我有两个文件系统”意思是说他有两个存储文件的分区,或者某人说“扩展文件系统”,意思是说文件系统的类型。从系统结构和文件本身两个角度对Linux文件系统和DOS文件系统进行对比,使读者对操作系统中的文件系统有更
期刊
[摘要]对当今的大热门Web服务进行一个简单的综述。  [关键词]Web服务 定义 架构  中图分类号:TP3文献标识码:A文章编号:1671-7597 (2008) 0110020-01    一、Web服务定义    Web服务是一种技术标准,开发人员利用它封装现有业务过程,作为服务发布这些业务过程,搜索和预订其他服务以及在企业内部与外部交换信息,从而将各种不同系统灵活地连接在一起。  (一)
期刊
[摘要]对高压断路器液压操作机构常见的几种故障原因进行分析,提出了相应故障处理的方法、步骤等。  [关键词]高压断路器 液压操作机构 原因 故障 处理  中图分类号:TM4文献标识码:A文章编号:1671-7597 (2008) 0110043-01    目前,滨海县供电公司滨海变电所110,35 kV开关操作机构以CY3液压操作机构为主。CY3液压机构体积小、功率大,但由于断路器运行时间较长,
期刊
[摘要]随着互联网应用的日益普及,电子邮件信息成为交流方式之一,随之而来的有安全性的考虑。通过探讨基于PGP(Pretty GoodPrivacy)的一种加密方法,以及其算法和加密过程,并进一步论述了其安全性。  [关键词]PGP 电子邮件系统 加密5  中图分类号:TN99文献标识码:A文章编号:1671-797 (2008) 0110014-01    随着互联网应用的普及和发展,电子邮件已成
期刊
[摘要]EIGRP和早期的IGRP协议都是由Cisco发明,是基于距离向量算法的动态路由协议。EIGRP(Enhanced Interior Gateway Routing Protocol)是增强版的IGRP协议。它属于动态内部网关路由协议,仍然使用矢量-距离算法。但它的实现比IGRP已经有很大改进,其收敛特性和操作效率比IGRP有显著的提高。EIGRP的收敛特性是基于DUAL ( Distri
期刊