应用Autonomy专题聚类方法揭示领域学科热点

来源 :现代情报 | 被引量 : 0次 | 上传用户:yigeyige
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  〔摘 要〕共词聚类分析是情报学中进行学科热点探测、掌握学科发展脉络的一种主要方法,目前已经比较成熟得到了广泛的应用。Autonomy公司开发的autonomy智能搜索系统也同样具备专题聚类的功能,本文对该系统专题聚类的原理以及功能进行了阐述,并用CSCD的试验数据对系统的聚类功能进行测试。通过对试验结果的分析和解释,证明了autonomy系统的专题聚类功能具有一定的应用价值,可以与其他聚类方法结合起来,对探测学科热点提供一定的帮助。
  〔关键词〕autonomy系统;聚类;学科热点
  〔中图分类号〕G353.1 〔文献标识码〕B 〔文章编号〕1008-0821(2009)08-0025-04
  
  The Application of Autonomy on E xploring Discipline HotspotsYue Ting Zhang Jianyong
  (Library of Chinese Academy of Sciences,Beijing 100190,China)
  〔Abstract〕Co-word clustering analysis is a kind of main method to explore the disc ipline hotspots,and it is widely used in Information Science.Autonomy search sys tem developed by autonomy company also has a function of clustering.The paper ex pounded the theory of autonomys clustering and tested this function by some da ta in CSCD.By analyzing the clustering result,Autonomys clustering is effectiv e,and it could be used with other clustering method to find the discipline hotsp ots.
  〔Key words〕autonomy;cluster ing;discipline hotspots
  
  共词聚类分析是情报学中进行学科热点探测、掌握学科发展脉络的一种主要方法。它的主要原理是:选取一组文献的高频主题词,两两统计它们同一篇文献出现的频率,形成一个高频主题词的共词矩阵,以这个矩阵计算生成的相似矩阵为基础,利用聚类的方法来判断哪些主题词的关系紧密。这些关系密切的主题聚集在一起形成类团,表达某一领域分支的组成[1]。这种方法已经相对比较成熟,已经在学科领域热点的探测中得到了广泛的应用。
  Autonomy系统是一个基于语义计算的智能搜索系统,专题聚类分析也是该系统的一个重要功能。系统的聚类分析是建立在香农信息论和贝叶斯概率论的基础之上,其原理与通常所使用的共词聚类分析不同。并且,Autonomy还具有对聚类结果进行可视化的功能。本文对Autonomy系统专题聚类的原理进行了分析和阐述,并尝试用Autonomy系统对中国科学引文数据库中图书情报领域的文摘数据进行聚类分析,旨在为揭示领域内的学科热点和研究结构提供一种新的思路和方法。
  
  1 Autonomy系统的专题聚类原理分析
  
  香农信息论和贝叶斯概率论的结合应用是Autonomy系统的特点之一。
  香农对消息和信息进行了区分:消息由于具有不确定性而含有信息,对消息进行通信可以消除或部分消除这种不确定性。而信息是对事物运动状态或存在方式的不确定性的描述。也就是说,信源能够发出一系列的消息,消息经过通信消除了不确定性而变成信息。
  香农的研究表明,如果信源{x1,x2…,xn}所发生的概率分别是{p1,p2,…pn},那么每个信源消息xi发出后,产生的信息量为I(xi)=-log(p(xi))[2]。这个函数是一个负对数函数,说明一个信源消息发出的概率越大,它所产生的信息量越少。这是信息论的基本观点。
  如果把一篇论文看作是一个信源,它含有若干个词语,一个词语重复的频率越多,其内容越不具有概括性,反之其包含的信息内容越丰富。
  贝叶斯概率的计算公式为:
  这一公式主要用于计算多个变量之间的概率关系,以及确定一个变量对另一个变量的影响程度。
  贝叶斯概率论的本质是当一个事物的本质不能被准确知悉时,可以依靠与这一事物本质相关的事件出现的多少去判断其本质属性的概率。将这一理论应用到论文的聚类分析中:通过论文中一个词语出现的频率的多少和与其它词语之间的关系来决定其成分的重要性。论文中的每个词语的权重、论文间词语的相关度不仅由其本身出现的频率决定,还取决于与其他词语之间的关系。
  Autonomy系统的聚类分析方法是这样的[3]:
  (1)系统的聚类分析是抽样进行的,首先根据论文集合的数量计算出抽样的次数和每次抽样的文档数量,并开始抽样。
  (2)对于每次抽取出的样本论文,利用香农信息论抽取论文中的信息内容最丰富的重要词汇(系统称之为“概念”)作为聚类的主题来源(系统支持学科专业词表,基于词表抽取的概念能够更加规范化)。
  (3)基于贝叶斯概率论计算每个概念在单篇论文中的权重以及在系统中所有论文中的权重,根据这两个权重计算概念之间的相关度,相关度大于某个阈值的聚为一类。当系统中论文集合有所变化时,概念在所有论文中的权重会随之变化重新进行计算。因此,系统对概念之间的相关度计算不仅依赖于概念在单篇论文中的出现的词频,更加依赖于其所在的上下文环境以及与其他概念之间的关系。
  共词聚类分析Autonomy聚类聚类主题来源 高频主题词或关键词,由信息标引者或作者直接给出基于香农信息论,动态抽取含有信息量最多的概念,由系统自动完成计算相关度的方法计算词对在同一论文中出现的频率形成共词矩阵,词与词之间的相关度仅与共同出现的频率有关基于贝叶斯概率论计算概念权重,概念之间的相关度计算与上下文环境以及其他概念具有关联性
  
  2 基于Autonomy的信息聚类试验
  
  2.1 数据来源与试验方法
  本研究所采用的试验数据来自中国科学引文数据库(CSCD)[4],按照中国图书馆分类法分类号为G250进行检索,共得到1997-2006年图书情报类中文文摘数据1 316条。将1 316条文摘数据按照Autonomy系统规定的格式转化成XML文档导入系统。
  抽取1 316篇论文中的关键词,写入到系统userdic.txt文件中,作为系统概念抽取时的专业词表。
  系统中检索词设置为空值,即对所有数据进行聚类,设定出版时间为“2000年1月-2008年1月”,相关度为“60”。
  2.2 试验结果与分析
  2.2.1 试验结果
  聚类结果如表2和图1所示。表2 图书情报类文摘数据聚类分析结果
  序号标
  题文档数1企业/图书馆知识,本体372企业竞争情报,wto273用户兴趣,个性化,网页27 续表2
  序号标
  题文档数4集成服务,个性化,决策235语义检索,xml,查询236xml,档案,检索,着录227企业信息化,cio,cko218图书情报,期刊论文219情报/情报学学科,文献学2010主题,标引,检索,词1911rdf,发布,检索,语义1712专利,内涵,建设,高校图书馆1713共享,共建,图书馆,情报1714传统图书馆,图书馆,职高,馆员1415网站链接,影响力,期刊1416信息搜索行为,搜索,用户,科技数据库网站1317wto,信息化,工业化,战略1318图书馆,版权,知识产权保护,观念1319主题,引文分析,情报学,期刊1320实施erp,cims,企业1321图书情报,兴起,网格技术1022jsp,发布,查询,申报923compendex,实证,数据库,期刊824xml,信息结构,导航,超文本725ei compendex,embase,检索6图1 图书情报类文摘数据聚类分析信息岛图
  (在同一“信息岛”上颜色越深表明该主题研究越为热点;同一信息岛中的类簇或信息岛之间的距离越近说明主题之间的关联越大)
  2.2.2 专题聚类分析
  对表2的聚类分析结果进行进一步分析,可以看出:
  (1)企业/图书馆知识,本体
  “企业/图书馆知识,本体”是聚类结果中最热点的主题。近几年来,无论是企业还是图书馆,都开始重视知识管理和知识服务的研究和探索。企业对自己的资源和知识进行有效的组织和管理,能够不断挖掘企业自身的创新点,给企业的生存和发展带来更大的空间。对图书馆来说,其业务发展正在逐渐的由“信息管理”向“知识管理”转变,更加注重隐性知识的搜集、整理、存储和应用,为用户提供更加深层次的服务,这是图书馆未来发展的趋势,这方面的研究自然成为近几年图书馆学研究的热点之一。
  图书馆界有关本体的研究已经开始了一段时间,近几年研究的重点在于本体的构建和应用方面,如何把本体应用到图书馆的信息组织和检索系统中去,实现其真正的功能。对照类簇名称中“本体”阅读相关的文摘,《面向知识处理的领域本体及其应用研究》[5],《数字图书馆领域本体构建研究——以数字参考咨询领域为例》[6],《VISION:集成分类法、主题词表和语义元数据的概念网络》[7],都是本体的应用实例研究,而不再仅仅局限在理论上的探讨。
  (2)企业竞争情报,wto
  对这一类的论文进行进一步分析,大多属于关于“获取企业战略竞争情报的方法,系统的构建”以及“人际网络分析”方面。企业竞争情报主题一直以来就是是情报学的热点问题。值得关注的是,近年来对人际网络的研究逐渐多了起来,用“人际 情报 网络”在维普数据库进行检索,有38篇文章,发表时间都在2005-2007年的。秦铁辉等人在2007年发表的文章《竞争情报与人际网络研究述评》[8]中指出,“近年来,随着人际网络理论在各个领域的广泛应用,竞争情报活动中的人际网络也引起了国内外学者的关注。”
  (3)用户兴趣,个性化,网页
  这一类簇中的文章,主要包括这样两类:通过网页日志或是一些算法对网页中的用户行为进行分析,实现搜索引擎或是信息检索系统的个性化推荐服务;网页信息的抓取和组织,如《搜索引擎检索结果的组织技术》[9]、《网站频道关键词选择方法研究》[10]等。
  随着用户信息素质的不断提高,他们的信息需求越来越趋向多样化。利用数据挖掘、数据推送、网页跟踪、协同过滤等信息技术为用户提供个性化服务,对庞大的信息进行有效的组织和呈现,不仅是搜索引擎开发商们未来发展的关注的热点,同时也是数字图书馆不断努力的方向。
  (4)语义检索,xml,查询
  语义网环境下,对“语义检索”的研究自然成为研究的焦点。XML、RDF等信息组织的语言和框架如何真正的应用到信息检索系统中去,也是图书情报领域研究者比较关注的问题。这一类簇中的论文正是体现了这一特点。
  此外,其他类簇所出现的“知识产权保护”等词也属于目前图书情报领域比较热衷的话题。
  2.2.3 主题之间关联分析
  图1中类簇1,3,4,5,6所包含文献的研究内容都是有关图书馆服务,信息集成,个性化服务等,主题之间有一定的联系,因此在它们属于同一个信息岛中的一个热点区域内;而类簇2同样属于热点研究内容,却与1,3,4,5联系相对较少,它与类簇7,17,18的主题相关,主要研究企业的信息化,企业的战略以及WTO等。
  第23和25个类簇形成一个小的“信息岛”,与大的“信息岛”有一定的距离,说明这两个主题的研究内容相对比较独立。类簇23是有关“compendex,实证,数据库,期刊”,类簇25为“ei compendex,embase,检索”,这两个类簇的研究内容都是有关某个特定数据库的分析和试验,与大的“信息岛”的各个研究主题相关性较小。而这两个类簇的研究内容之间却有较高的相关性。
  
  3 讨论与结语
  
  通过对CSCD数据库图书情报领域中文期刊文摘数据聚类结果的初步分析,结合其他的综述性文献的阐述,可以看出,利用Autonomy对这一领域专题聚类的效果基本符合实际情况,能够初步揭示图书情报领域近年来的主要研究热点。这也证明了Autonomy系统所使用的香农信息论和贝叶斯概率论相结合的聚类分析方法对于判断领域热点来说是有效的。
  同时,Autonomy的可视化显示功能相对比较强大,不仅能通过同一信息岛内研究点颜色的深浅揭示研究热点,还可以根据信息岛之间距离的远近的变化来观测主题与主题之间的关联程度。这一方面比其他的聚类方法更加直观、清晰。
  Autonomy的专题聚类是对样本论文抽样进行的,聚类能否进行与样本量的大小有一定的关系,如果要对某一学科中某一具体主题进行热点分析,可能由于样本量不够而无法进行。因此,系统对某一大的学科领域的热点分析的效果还比较理想,但是当热点探测范围缩小到某一小的主题领域,对某一学科热点进行进一步的深层次挖掘时,还存在一定的局限性。Autonomy的专题聚类分析只适用于对某一学科热点的初步揭示,而不适用于对学科热点进行更加深度的分析。在真正的实际应用中,可以把Autonomy的专题聚类与共词聚类分析或其他聚类方法结合起来,为情报人员对领域内热点的进一步分析提供帮助。
  
  参考文献
  [1]钟伟金,李佳,杨兴菊.共词分析法研究(三)——共词聚类分析法的原理与特点[J].情报杂志,2008,(7):118-120.
  [2]李亦农,李梅.信息论基础教程[M].北京:北京邮电大学出版社,2004.
  [3]Autonomy核心技术说明[S].2008.
  [4]中国科学引文数据库[EB].http:∥sdb.csdl.ac.cn,2008-11-03.
  [5]曾庆田,段华,杨红梅,等.面向知识处理的领域本体及其应用研究[J].情报学报,2006,(6):713-719.
  [6]肖洪,余锦凤.数字图书馆领域本体构建研究——以数字参考咨询领域为例[J].大学图书馆学报,2006,(6):26-29.
  [7]王军.VISION:集成分类法、主题词表和语义元数据的概念网络[J].情报学报,2003,(4):412-418.
  [8]秦铁辉,刘宇,杨薇薇.竞争情报与人际网络研究述评[J].情报科学,2007,(12):1761-1768.
  [9]赵荣,黄燕云,张露.搜索引擎检索结果的组织技术[J].情报学报,2004,(1):69-72.
  [10]索红光,刘玉树.网站频道关键词选择方法研究[J].情报学报,2007,(2):249-252.
其他文献
摘 要:2019年2月中共中央、国务院颁布《粤港澳大湾区发展规划纲要》,其明确了大湾区的绿色发展理念和大力发展绿色金融产业的方向。然而粤港澳三地间存在制度等各方面差异,且我国有关环境责任保险的法律、政策规定较少,尚未形成完整体系,环境损害赔偿方面存在缺乏统一赔偿标准、统一赔偿金管理、协调不利等障碍。本文将在目前大湾区环责险的实践基础上,结合我国环责险理论研究成果,探讨我国环责险损害赔偿机制的不足,
期刊
摘 要:随社会发展,我国家事矛盾日趋复杂,案件类型多元化,家事审判面临时代挑战。家事审判改革作为司法改革的核心内容之一,兼具司法功能与社会功能的双重属性,可有效维护社会稳定,促进家庭和睦。随《中华人民共和国民法典》(下文简称《民法典》)正式出台生效,“婚姻家庭编”脱单入典,成为家事实体法体系完善、内容规范的标志。良好的家事审判需要实体法与程序法的双轨并行,也需因地制宜,结合我国不同地区实况统筹规划
期刊
摘 要:本文结合本科生会计信息化实验的特点,以总账系统为例,总结“挖坑设陷”教学中常设的陷阱和解决思路,以期提高学生分析和解决问题的能力。  关键词:试验原则;流程原则;挖坑设陷  中图分类号:G4 文献标识码:A doi:10.19311/j.cnki.1672-3198.2021.33.061   本科生的会计信息化实验主要目的是让学生掌握会计软件的初始化工作,理解会计业务的信息化处理流程,并
期刊
摘 要:艺术品拍卖行业与传统工业不一样,很容易受到政治环境、文化环境、经济环境的影响,市场具有很大的不稳定性。本文以澳门艺术品拍卖典型案例为研究对象,展开探讨艺术品拍卖过程中涉及的操作风险、管理风险、商业风险和外部风险,并给出风险控制策略。  关键词:文物艺术;风险管理;拍卖  中图分类号:D9 文献标识码:A doi:10.19311/j.cnki.1672-3198.2021.33.053  
期刊
摘 要:“互联网+教育”模式逐年融入教学改革中,该研究项目以其为背景,融合混合式教学,结合最近发展区、支架式教学、因材施教等教育教学理论,以高职高专经济管理类专业学生人才培养方案为依据,以“商品学”课程为例,构建“多角度分析、多方式施教、多主体评价、多方向发展”的四位一体差异化教学模式,分析了该模式的建设思路和运作途径。通过实践,对比发现该模式调动了学生学习兴趣,提升了教学效果,培养了学生综合能力
期刊
摘 要:研究历代蒸煮工具釜的发展脉络,探究历代釜的设计特点,首先通过对产品设计中几个要素,即材料、结构、功能三个角度对蒸煮工具釜进行分析,从古至今中国传统蒸煮工具釜具有优良的设计优点应用于人类生活之中,是人类生活的重要饮食器具,其中蕴含着古人节约、高效、一物多用的方法和思想,对当代设計的发展具有值得借鉴与学习的重要意义。  关键词:历代;炊煮工具;釜;设计  中图分类号:TB 文献标识码:A do
期刊
摘 要:近年来湖北省制造业持续发展,发展规模逐渐扩大,产业内创新能力较低、发展驱动因素薄弱、产业链地位低端等问题凸显,湖北省制造业如何走出现有生产模式,走向高质量发展成为了重要研究话题。本文以湖北省近年来制造业发展数据为支撑,深入探究湖北省制造业陷入全球价值链低端的现实问题,以产业发展要素角度提出发展建议。  关键词:低端锁定;制造业;湖北省;产业发展  中图分类号:F2 文献标识码:A doi:
期刊
摘 要:本文基于中国知网(CNKI)数据库,选取党的十八大以来(检索日期2021年3月1日)关于“脱贫攻坚”的核心期刊文献,利用CiteSpace软件和中国知网的可视化分析工具对样本文献分析,用知识图谱揭示脱贫攻坚研究领域的文献发表趋势、研究层次、主要载文核心期刊、主要研究机构及核心著者、文献影响力、关键词热点分布等研究现状。未来研究应多注重中国特色扶贫开发理论的深度挖掘、脱贫攻坚与乡村振兴衔接机
期刊
摘 要:绿色发展是中国发展理念的核心,而创新和开放是引领发展的动力。对外放开、科技创新与绿色发展关系紧密,如何利用对外开放、科技创新推动绿色发展成为我国经济转型、培育经济新动力的关键。本文主要研究长江经济带绿色发展面临的问题,针对当前问题,基于“一带一路”倡议,提出对外开放、科技创新与绿色发展协同互动的建议,以期能够促进长江经济带高质量发展。  关键词:长江经济带;绿色发展;科技创新;对外开放  
期刊
摘 要:山东省蒙阴县是我国著名的蜜桃产区,凭借独特的区位优势,经过近几十年的发展,蜜桃产业现已成为蒙阴县农村经济的支柱产业。然而,随着市场消费需求的升级和国内蜜桃种植面积的增加,蒙阴蜜桃进入了一个转型期。在全面推进乡村振兴的新形势下,借助波特五力模型系统地分析蒙阴蜜桃产业竞争力状况,有利于推动蜜桃产业转型升级和县域经济的持续健康发展。  关键词:蒙阴蜜桃;产业竞争力;波特五力模型  中图分类号:F
期刊