论文部分内容阅读
摘 要: 针对传统馆藏评价方法存在的缺陷,首次提出了基于OPAC的馆藏评价支持系统解决方案,阐述了系统的基本思想与目标、关键技术等,研究和探索运用现代信息技术手段对图书馆藏书质量进行定量评价。
关键词:馆藏评价 书目信息提取 馆藏完备性
中图分类号:G253文献标志码:A 文章编号:1003-6938(2010)04-087-004
Research on Library Collections Evaluation Methods Based on OPAC
Zhang Huijun Li Juan (Xi’an Jiaotong University Library, Xi’an,Shanxi,710049)
Abstract:In view of the limitation of the traditional library collections evaluation, the author, for the first time, proposes a library collection evaluation support system based on OPAC. The paper depicts in detail the principles, the goals and critical technologies involved. It is a worthwhile attempt in quantitatively evaluating library collections quality using modern information technologies way.
Key words:collection evaluation; bibliography information extraction; completeness of library collections
CLC number:G253 Document code:A Article ID:1003-6938(2010)04-087-004
图书馆馆藏作为一种文献情报资源,是遵循一定的原则、方针,经过图书馆人的精心选择、整序而形成的为特定读者提供服务的知识体系,而不是各种知识载体的随意堆砌。
事实上,在文献资源建设过程中,由于受到种种主客观因素的影响,不可避免地造成与既定方针的偏离,因此,必须运用各种定性的和定量的方法定期对馆藏进行评价,从而及时地发现采访工作存在的疏漏,并采取措施积极补救。其中,评价方法至关重要。
1 馆藏评价方法回顾
馆藏文献的评价,是文献资源建设过程的最后一个环节,也是一个重要的反馈环节。依据传统图书馆藏书评价体系,对馆藏图书的评价主要包括:藏书量、藏书的情报容量、藏书结构以及藏书的利用情况四个方面。藏书评价的技术方法有多种,常用方法包括:直接观察法、用户评议法、统计分析法、书目核对法、引文分析法以及藏书结构分析法。[1 ] 上述评价方法中,直接观察法和用户评议法属于定性评价,由于其评价结果具有较强的主观性和片面性,在实践中并不常用,图书馆更愿意使用相对客观的定量评价方法。
我国的藏书评价工作起步较晚,20世纪80年代中期以前,实际工作中基本上只重视选书工作,还谈不上馆藏的评价。1984年,全国高校图工委提出了要对馆藏文献进行调查和分析的要求,得到了各个高校图书馆的普遍响应,许多图书馆对本馆的馆藏进行了研究和评价。[2 ] 然而,在图书馆业务工作处于手工管理水平的时代,要获得精准的、与评价有关的各种统计数据和权威书目并非一件容易的事,因此,那时评价馆藏,多使用引文分析法,这一点从上世纪90年代各馆的实践可见一斑。例如,吉林农业大学图书馆针对本校具有研究级水平的10个学科,选出有代表性的文献54篇, 对其引文数量、文献类型、文种和年代分布等进行了统计、分析,并根据结果进行了馆藏评价;[3 ]清华大学图书馆则是对1992年获奖的41种清华教材的引文进行了分析研究,通过对统计结果的分析, 总结出教材编写过程中文献利用的特点及规律, 并从文献利用的角度,对西文科技藏书的质量进行管窥与评估。[4 ]
随着信息技术的发展及其在图书馆应用的普及,图书馆的基本业务管理从手工方式越升到自动化,借助于自动化管理系统,各种统计数据的获得较以往变得容易,此时,馆藏的评价方法不仅仅限于引文分析,更多的是基于统计数据的分析。综观近几年各馆的馆藏评价实践,基本上是针对已入藏文献的结构分析和流通率统计分析。东华大学图书馆以2007年度可借阅入藏中文图书为评价主体,以学科保障率及借阅率为评价依据,对入藏资源的属性和使用状况进行统计分析,并以此为基础,提出了针对中文图书的馆藏建设优化方案;[5 ] 西安科技大学图书馆选择该校具有代表性的十大专业,通过这十个专业2003~2007五年间中文图书入藏情况和使用情况的统计数据,分析馆藏建设结构的合理性,并提出完善馆藏的建议。[6 ]
藏书评价的技术方法有多种,其中的每一种方法只能从一个侧面对馆藏质量做出评价,上面提到的利用统计分析对馆藏结构和使用效果的评价,仅仅限于某学科的入藏文献,而不能对学科文献收藏的完备性进行评价,也就谈不上依据完备性评价结果进行查漏补缺、优化馆藏。究其原因,并非完备性评价不重要,实在是因为对于馆藏完备性的评估,没有一个高效、科学、可靠的手段。
2 问题的提出
对学科文献的完备性评价是当今馆藏质量评价的一个重要指标。拿中文图书来说,很多经费充足或者特色鲜明的图书馆,都有追求完备率的建设目标。例如南京中医药大学图书馆,对建国后公开出版的中医药图书入藏率达95%以上,就是一个很高的比例。[7 ] 这就给采访工作带来一个问题:用什么方法验证和评价馆藏的完备性?
传统图书馆进行馆藏完备性评价时,通常使用书目核对法,这种方法是将馆藏与标准书目、核心书目或权威书目进行对照,从而发现馆藏在类型、文种、年代、数量、品种等方面的不足,以便对馆藏进行评价。这是考察本馆藏书对有关学科文献的覆盖率及核心图书占有率的一种重要方法。书目核对法的关键在于选定书目。[8 ] 随着时代的不断发展,这种方法越来越显现出它的不适用性。首先,当今出版业、发行业发展迅猛,书目信息来源渠道繁多,收集齐全书目信息是一件困难的事情;其次,用人工的方法进行书目核对,对于图书馆每年上万种的入藏量而言,可操作性极低,也就不可能将馆藏质量评价和查漏补缺纳入制度、定期执行了。
针对上述问题,我们提出了基于书目信息比对的馆藏评价支持系统解决方案,尝试运用现代信息技术手段对图书馆藏书质量进行定量评价。
3 基于OPAC的馆藏评价解决方案
3.1 基本思想与目标
本研究以下述几个假设为前提:
① 中国国家图书馆是综合性研究图书馆,其主要职能包括完整、系统地搜集和保管本国的文献,从而成为国家总书库。[9 ]
② 绝大多数高校图书馆在进行馆藏文献资源建设时,都是以本校重点学科为重心。相比其它学科,重点学科的文献具有较高的入藏率。
③ 各图书馆的OPAC系统是开放的,互联网上的任何用户都可以利用它进行书目信息查询。
按照上述假设,我们认为,对馆藏完备性的评价可以摒弃传统的、手工操作的书目核对法,取而代之的是:利用网络环境和计算机技术,提取本馆某学科馆藏文献书目记录和国家图书馆相关学科的书目记录,并将二者进行自动比对,通过比对,既可以得出较为准确的收藏完备率评价,又可以获得比较系统的缺藏信息。也就是说,从国家图书馆OPAC中提取某学科书目记录取代传统的标准书目,以机器比对取代人工核对,用一种科学、准确、高效的方法完成馆藏完备性的评价。
除与国家图书馆的学科馆藏进行比较外,还可与兄弟院校图书馆进行比较。一般情况下,根据学校专业设置、课程设置、科研项目、读者需求以及经费情况,多数图书馆不可能对每个学科的馆藏都追求高入藏率,在此情况下,入藏图书的质量显得尤为重要。这就要求采访人员不但在订购时精益求精,还要将查漏补缺工作日常化,用这种最实用的方法进行补救和优化馆藏。查漏的关键,是与那些我们认为在某学科收藏质量较高的图书馆进行馆藏比较,通常为重点学科所在学校的图书馆,尤其是“985”和“211”院校馆。一旦选定目标图书馆、选定了学科,就可让系统自动地进行书目信息比对,从而获得缺藏信息,为馆藏优化工作提供参考依据。
著名语言学家赵元任有句名言:“说有易,说无难”,[10 ] 这句话适用于科学研究的许多领域,也包括图书馆的文献资源建设。从前面的讨论我们不难看出,评价馆藏的完备性、查缺补漏,实际上是一个从“有”求“无”的过程。馆藏有什么是显而易见的,可是要搞清楚缺少哪些核心收藏,并不是一件容易的事。以书目核对法为例,只有将学科藏书与权威书目逐一核对后,才知道缺藏情况,在这里,穷尽(权威书目)之后方能“说无”。在信息技术渗透到图书馆业务各个领域的今天,用手工操作的方法去“穷尽”,显然是不合时宜的,也是不可取的。馆藏评价支持系统的目标,就是让“说无”变得简单易行。
3.2 关键技术研究
馆藏评价系统包括3个核心功能模块:书目信息提取、书目记录比对以及系统维护。系统的实现需要解决2个关键问题,一是如何通过OPAC获得书目信息,即书目信息的提取;二是如何限定书目提取条件,以获得需要的书目信息。
(1)书目信息提取
利用系统进行馆藏评价的基本原理,是不同图书馆之间书目记录的比对,因此,如何获得各个图书馆的书目信息成为系统实现的技术关键。
鉴于安全的原因,我们不可能直接访问某个图书馆管理系统的数据库来获得书目记录。幸运的是,Web具有开放性,它让我们的设想变得可行。利用图书馆OPAC的开放性特点,运用相关技术,就可以从OPAC中提取符合条件的书目信息,也就是说,只要一个图书馆的OPAC在互联网上可以被访问,系统就可以按照某种限定条件(如分类)从中提取书目信息。
Web信息的提取是近几年的研究热点,关于此,有许多技术方法的研究和实践。例如,基于DOM的网页主题信息自动提取技术,针对HTML 的半结构化特征和缺乏语义描述的不足,采用含有语义信息的DOM 树模型,将HTML 文档转换为DOM 树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息。[11 ]又如,基于人工策略的WEB信息精确提取技术,提出了一种利用DOM树及HTML标签实现大量的特定格式化信息的精确提取方法。实验结果表明,在提取特定WEB信息的应用中达到100%的精确提取率。[12 ]
用于馆藏评价支持系统的书目信息提取有这样2个特点,首先,由于提取的书目记录要用于馆藏比对,因此,必须是精确提取;其次,相对于因特网复杂的信息环境,图书馆OPAC信息具有特定的格式,使精确提取书目记录成为可能。系统实现时,可以采用基于人工策略的OPAC信息精确提取技术,大致遵循这样的步骤:①通过跟踪TCP会话和深入检测HTTP内容,截获WEB页面,在人工参与下,对WEB页面进行DOM分析和匹配;②根据配置,向选定服务器发送HTTP请求;③对HTTP返回包进行DOM分析,从结果中选择指定(预先配置)的字段内容;④提取选择的字段内容,同时传递给应用程序。
作为一个馆藏评价支持系统,在实际应用时,不可避免地要面对不同图书馆管理系统OPAC页面的异构性特征。目前在我国,并不是所有的图书馆都使用统一的管理系统,以陕西高校图书馆为例,有9种管理系统存在。系统不同,或者系统相同而版本不同,其OPAC页面在显示格式等方面也不尽相同,这就要求系统在实现书目信息提取功能时,必须具备适配性,这样才能从不同管理系统的OPAC中提取出精确的书目信息。
(2)相关数据库设计
书目信息提取时需要进行条件限定,它有赖于3个数据库:重点学科与分类法对照表、重点学科核心作者库、重点学科与学校对照表,这三个数据库均是以重点学科为基础建立的。这里所说的重点学科,来源于教育部颁布的《授予博士、硕士学位和培养研究生的学科、专业目录》, [13 ]我国各高校学科建设均以此为依据,图书馆馆藏建设也不例外。
①重点学科与分类法对照表。高校图书馆馆藏资源建设是以学科为对象的,同时,图书馆的资源又是按照分类法进行标引和组织的,因此,在对某一重点学科进行馆藏评价时,必须先搞清这个重点学科可能包含了哪些类目,如外国哲学,包含了B0、B1、B3、B4、B5、B6、B7共7个类目,要评价外国哲学的学科馆藏建设,就必须涵盖这7个类目下的藏书,才是完整地评价。重点学科与分类法对照表扮演的就是这个角色,它为每一个重点学科事先“找全”涉及的类目,这样,在进行某学科书目资源提取时,就可以自动地限定查找的类目范围。这个库的建立具有很强的专业性,必须由学科专家和编目人员共同完成。
②重点学科核心作者库。每个学科都会形成自己的核心作者群,在进行学科馆藏建设时,重要作者的著作是否收录齐全是衡量馆藏质量的重要指标之一,因此,以作者为查询条件的检索结果比对,也是图书馆采访工作中查缺的重要环节。核心作者库的作用,就是尽可能地收录某一学科的核心作者,以便按作者提取书目信息时,提供限定依据。这个库的建立有赖于采访人员的知识积累,并且必须根据学术著作出版情况经常更新和维护。
③重点学科与学校对照表。上述两个库的作用,都是在提取书目信息时进行内容方面的限定。除内容限定外,目标图书馆的选择也非常重要。重点学科与学校对照表的任务就是为每一个学科提供一份客观的、能反映学科馆藏实力的学校名单,并且配置URL等相关信息。这个数据库的内容来源于教育部的《高等学校重点学科点名单》,[14 ] 该名单的学科体系与《授予博士、硕士学位和培养研究生的学科、专业目录》完全一致。依据重点学科名单,在数据库中,每个重点学科对应若干个学校,如外国哲学,对应的是北京大学和复旦大学,这样,在进行外国哲学学科的馆藏查缺时,可以选择北大图书馆或复旦大学图书馆作为目标图书馆,以获得比较可靠的比对结果。
以上述3个数据库为基础,馆藏评价与优化支持系统就可完成书目信息提取功能,进而实现书目记录的比对,通过分析比对结果,获得对馆藏建设有益的指导性信息(系统工作示意图见图1)。
4 结语
本文研究了以计算机为辅助手段的馆藏完备性评价方法,它的实现,有助于图书馆藏书质量评价工作的日常化和制度化,为优化馆藏提供了支持和保障。随着图书馆资源整合工作的不断深入,OPAC中将揭示越来越多类型的资源,可以这么说,凡是OPAC中揭示的信息,都可以利用本文所讨论的系统进行比较和评价。因此,馆藏评价支持系统的研究与实现,在未来的图书馆资源建设中一定会发挥应有的作用。
参考文献:
[1][8]沈继武,萧希明.文献资源建设[M].武汉: 武汉大学出版社, 1991:276-281.
[2]徐帮学.图书馆管理百科:图书馆管理标准规范与图书分类法(下册)[M]长春:吉林音像出版社,2003:1611.
[3]梁淑芳,关丽华.农业文献引文分析与馆藏评价[J] .农业图书情报学刊,1991,(6):15-18.
[4]刘玉兰等.清华大学获奖教材引文分析与馆藏评价[J].大学图书馆学报,1995,(1):51-53.
[5]毛莉,陈惠兰.东华大学图书馆中文图书馆藏评价分析[J] .上海高校图书情报工作研,2009,(2):8-10.
[6]高云燕.典型学科文献馆藏现状的分析与评价[J] .技术与创新管理,2009,(1):120-123.
[7]南京中医药大学图书馆[EB/OL].[2009-09-25].http://bike.baidu.com/view/2380890.html?fromTaglist.
[9]国家图书馆资源[EB/OL].[2009-09-25].http://baike.baidu.com/view/121164.htm#3.
[10]赁常彬.研究方法例说[M].成都:四川人民出版社,1985:105-113.
[11]王琦等.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,(10):1786-1791.
[12]刘玲.一种基于人工策略的WEB信息精确提取系统[J] .西南科技大学学报,2009,(06):49-52.
[13]中华人民共和国教育部:《授予博士、硕士学位和培养研究生的学科、专业目录》(1997年颁布) [EB/OL].[2009-09-25].http://www.moe.edu.cn/edoas/website18/level3.jsp?tablename=1288&infoid=12846.
[14]教育部:公布高等学校重点学科名单[EB/OL].[2009-09-25].http://www.edu.cn/20020515/3026025_2.shtml.
作者简介:张惠君(1964—),女,西安交通大学图书馆副研究馆员;李娟(1970—),女,西安交通大学图书馆副研究馆员。
关键词:馆藏评价 书目信息提取 馆藏完备性
中图分类号:G253文献标志码:A 文章编号:1003-6938(2010)04-087-004
Research on Library Collections Evaluation Methods Based on OPAC
Zhang Huijun Li Juan (Xi’an Jiaotong University Library, Xi’an,Shanxi,710049)
Abstract:In view of the limitation of the traditional library collections evaluation, the author, for the first time, proposes a library collection evaluation support system based on OPAC. The paper depicts in detail the principles, the goals and critical technologies involved. It is a worthwhile attempt in quantitatively evaluating library collections quality using modern information technologies way.
Key words:collection evaluation; bibliography information extraction; completeness of library collections
CLC number:G253 Document code:A Article ID:1003-6938(2010)04-087-004
图书馆馆藏作为一种文献情报资源,是遵循一定的原则、方针,经过图书馆人的精心选择、整序而形成的为特定读者提供服务的知识体系,而不是各种知识载体的随意堆砌。
事实上,在文献资源建设过程中,由于受到种种主客观因素的影响,不可避免地造成与既定方针的偏离,因此,必须运用各种定性的和定量的方法定期对馆藏进行评价,从而及时地发现采访工作存在的疏漏,并采取措施积极补救。其中,评价方法至关重要。
1 馆藏评价方法回顾
馆藏文献的评价,是文献资源建设过程的最后一个环节,也是一个重要的反馈环节。依据传统图书馆藏书评价体系,对馆藏图书的评价主要包括:藏书量、藏书的情报容量、藏书结构以及藏书的利用情况四个方面。藏书评价的技术方法有多种,常用方法包括:直接观察法、用户评议法、统计分析法、书目核对法、引文分析法以及藏书结构分析法。[1 ] 上述评价方法中,直接观察法和用户评议法属于定性评价,由于其评价结果具有较强的主观性和片面性,在实践中并不常用,图书馆更愿意使用相对客观的定量评价方法。
我国的藏书评价工作起步较晚,20世纪80年代中期以前,实际工作中基本上只重视选书工作,还谈不上馆藏的评价。1984年,全国高校图工委提出了要对馆藏文献进行调查和分析的要求,得到了各个高校图书馆的普遍响应,许多图书馆对本馆的馆藏进行了研究和评价。[2 ] 然而,在图书馆业务工作处于手工管理水平的时代,要获得精准的、与评价有关的各种统计数据和权威书目并非一件容易的事,因此,那时评价馆藏,多使用引文分析法,这一点从上世纪90年代各馆的实践可见一斑。例如,吉林农业大学图书馆针对本校具有研究级水平的10个学科,选出有代表性的文献54篇, 对其引文数量、文献类型、文种和年代分布等进行了统计、分析,并根据结果进行了馆藏评价;[3 ]清华大学图书馆则是对1992年获奖的41种清华教材的引文进行了分析研究,通过对统计结果的分析, 总结出教材编写过程中文献利用的特点及规律, 并从文献利用的角度,对西文科技藏书的质量进行管窥与评估。[4 ]
随着信息技术的发展及其在图书馆应用的普及,图书馆的基本业务管理从手工方式越升到自动化,借助于自动化管理系统,各种统计数据的获得较以往变得容易,此时,馆藏的评价方法不仅仅限于引文分析,更多的是基于统计数据的分析。综观近几年各馆的馆藏评价实践,基本上是针对已入藏文献的结构分析和流通率统计分析。东华大学图书馆以2007年度可借阅入藏中文图书为评价主体,以学科保障率及借阅率为评价依据,对入藏资源的属性和使用状况进行统计分析,并以此为基础,提出了针对中文图书的馆藏建设优化方案;[5 ] 西安科技大学图书馆选择该校具有代表性的十大专业,通过这十个专业2003~2007五年间中文图书入藏情况和使用情况的统计数据,分析馆藏建设结构的合理性,并提出完善馆藏的建议。[6 ]
藏书评价的技术方法有多种,其中的每一种方法只能从一个侧面对馆藏质量做出评价,上面提到的利用统计分析对馆藏结构和使用效果的评价,仅仅限于某学科的入藏文献,而不能对学科文献收藏的完备性进行评价,也就谈不上依据完备性评价结果进行查漏补缺、优化馆藏。究其原因,并非完备性评价不重要,实在是因为对于馆藏完备性的评估,没有一个高效、科学、可靠的手段。
2 问题的提出
对学科文献的完备性评价是当今馆藏质量评价的一个重要指标。拿中文图书来说,很多经费充足或者特色鲜明的图书馆,都有追求完备率的建设目标。例如南京中医药大学图书馆,对建国后公开出版的中医药图书入藏率达95%以上,就是一个很高的比例。[7 ] 这就给采访工作带来一个问题:用什么方法验证和评价馆藏的完备性?
传统图书馆进行馆藏完备性评价时,通常使用书目核对法,这种方法是将馆藏与标准书目、核心书目或权威书目进行对照,从而发现馆藏在类型、文种、年代、数量、品种等方面的不足,以便对馆藏进行评价。这是考察本馆藏书对有关学科文献的覆盖率及核心图书占有率的一种重要方法。书目核对法的关键在于选定书目。[8 ] 随着时代的不断发展,这种方法越来越显现出它的不适用性。首先,当今出版业、发行业发展迅猛,书目信息来源渠道繁多,收集齐全书目信息是一件困难的事情;其次,用人工的方法进行书目核对,对于图书馆每年上万种的入藏量而言,可操作性极低,也就不可能将馆藏质量评价和查漏补缺纳入制度、定期执行了。
针对上述问题,我们提出了基于书目信息比对的馆藏评价支持系统解决方案,尝试运用现代信息技术手段对图书馆藏书质量进行定量评价。
3 基于OPAC的馆藏评价解决方案
3.1 基本思想与目标
本研究以下述几个假设为前提:
① 中国国家图书馆是综合性研究图书馆,其主要职能包括完整、系统地搜集和保管本国的文献,从而成为国家总书库。[9 ]
② 绝大多数高校图书馆在进行馆藏文献资源建设时,都是以本校重点学科为重心。相比其它学科,重点学科的文献具有较高的入藏率。
③ 各图书馆的OPAC系统是开放的,互联网上的任何用户都可以利用它进行书目信息查询。
按照上述假设,我们认为,对馆藏完备性的评价可以摒弃传统的、手工操作的书目核对法,取而代之的是:利用网络环境和计算机技术,提取本馆某学科馆藏文献书目记录和国家图书馆相关学科的书目记录,并将二者进行自动比对,通过比对,既可以得出较为准确的收藏完备率评价,又可以获得比较系统的缺藏信息。也就是说,从国家图书馆OPAC中提取某学科书目记录取代传统的标准书目,以机器比对取代人工核对,用一种科学、准确、高效的方法完成馆藏完备性的评价。
除与国家图书馆的学科馆藏进行比较外,还可与兄弟院校图书馆进行比较。一般情况下,根据学校专业设置、课程设置、科研项目、读者需求以及经费情况,多数图书馆不可能对每个学科的馆藏都追求高入藏率,在此情况下,入藏图书的质量显得尤为重要。这就要求采访人员不但在订购时精益求精,还要将查漏补缺工作日常化,用这种最实用的方法进行补救和优化馆藏。查漏的关键,是与那些我们认为在某学科收藏质量较高的图书馆进行馆藏比较,通常为重点学科所在学校的图书馆,尤其是“985”和“211”院校馆。一旦选定目标图书馆、选定了学科,就可让系统自动地进行书目信息比对,从而获得缺藏信息,为馆藏优化工作提供参考依据。
著名语言学家赵元任有句名言:“说有易,说无难”,[10 ] 这句话适用于科学研究的许多领域,也包括图书馆的文献资源建设。从前面的讨论我们不难看出,评价馆藏的完备性、查缺补漏,实际上是一个从“有”求“无”的过程。馆藏有什么是显而易见的,可是要搞清楚缺少哪些核心收藏,并不是一件容易的事。以书目核对法为例,只有将学科藏书与权威书目逐一核对后,才知道缺藏情况,在这里,穷尽(权威书目)之后方能“说无”。在信息技术渗透到图书馆业务各个领域的今天,用手工操作的方法去“穷尽”,显然是不合时宜的,也是不可取的。馆藏评价支持系统的目标,就是让“说无”变得简单易行。
3.2 关键技术研究
馆藏评价系统包括3个核心功能模块:书目信息提取、书目记录比对以及系统维护。系统的实现需要解决2个关键问题,一是如何通过OPAC获得书目信息,即书目信息的提取;二是如何限定书目提取条件,以获得需要的书目信息。
(1)书目信息提取
利用系统进行馆藏评价的基本原理,是不同图书馆之间书目记录的比对,因此,如何获得各个图书馆的书目信息成为系统实现的技术关键。
鉴于安全的原因,我们不可能直接访问某个图书馆管理系统的数据库来获得书目记录。幸运的是,Web具有开放性,它让我们的设想变得可行。利用图书馆OPAC的开放性特点,运用相关技术,就可以从OPAC中提取符合条件的书目信息,也就是说,只要一个图书馆的OPAC在互联网上可以被访问,系统就可以按照某种限定条件(如分类)从中提取书目信息。
Web信息的提取是近几年的研究热点,关于此,有许多技术方法的研究和实践。例如,基于DOM的网页主题信息自动提取技术,针对HTML 的半结构化特征和缺乏语义描述的不足,采用含有语义信息的DOM 树模型,将HTML 文档转换为DOM 树,并对其进行基于结构的过滤和基于语义的剪枝,能够准确地提取出主题信息。[11 ]又如,基于人工策略的WEB信息精确提取技术,提出了一种利用DOM树及HTML标签实现大量的特定格式化信息的精确提取方法。实验结果表明,在提取特定WEB信息的应用中达到100%的精确提取率。[12 ]
用于馆藏评价支持系统的书目信息提取有这样2个特点,首先,由于提取的书目记录要用于馆藏比对,因此,必须是精确提取;其次,相对于因特网复杂的信息环境,图书馆OPAC信息具有特定的格式,使精确提取书目记录成为可能。系统实现时,可以采用基于人工策略的OPAC信息精确提取技术,大致遵循这样的步骤:①通过跟踪TCP会话和深入检测HTTP内容,截获WEB页面,在人工参与下,对WEB页面进行DOM分析和匹配;②根据配置,向选定服务器发送HTTP请求;③对HTTP返回包进行DOM分析,从结果中选择指定(预先配置)的字段内容;④提取选择的字段内容,同时传递给应用程序。
作为一个馆藏评价支持系统,在实际应用时,不可避免地要面对不同图书馆管理系统OPAC页面的异构性特征。目前在我国,并不是所有的图书馆都使用统一的管理系统,以陕西高校图书馆为例,有9种管理系统存在。系统不同,或者系统相同而版本不同,其OPAC页面在显示格式等方面也不尽相同,这就要求系统在实现书目信息提取功能时,必须具备适配性,这样才能从不同管理系统的OPAC中提取出精确的书目信息。
(2)相关数据库设计
书目信息提取时需要进行条件限定,它有赖于3个数据库:重点学科与分类法对照表、重点学科核心作者库、重点学科与学校对照表,这三个数据库均是以重点学科为基础建立的。这里所说的重点学科,来源于教育部颁布的《授予博士、硕士学位和培养研究生的学科、专业目录》, [13 ]我国各高校学科建设均以此为依据,图书馆馆藏建设也不例外。
①重点学科与分类法对照表。高校图书馆馆藏资源建设是以学科为对象的,同时,图书馆的资源又是按照分类法进行标引和组织的,因此,在对某一重点学科进行馆藏评价时,必须先搞清这个重点学科可能包含了哪些类目,如外国哲学,包含了B0、B1、B3、B4、B5、B6、B7共7个类目,要评价外国哲学的学科馆藏建设,就必须涵盖这7个类目下的藏书,才是完整地评价。重点学科与分类法对照表扮演的就是这个角色,它为每一个重点学科事先“找全”涉及的类目,这样,在进行某学科书目资源提取时,就可以自动地限定查找的类目范围。这个库的建立具有很强的专业性,必须由学科专家和编目人员共同完成。
②重点学科核心作者库。每个学科都会形成自己的核心作者群,在进行学科馆藏建设时,重要作者的著作是否收录齐全是衡量馆藏质量的重要指标之一,因此,以作者为查询条件的检索结果比对,也是图书馆采访工作中查缺的重要环节。核心作者库的作用,就是尽可能地收录某一学科的核心作者,以便按作者提取书目信息时,提供限定依据。这个库的建立有赖于采访人员的知识积累,并且必须根据学术著作出版情况经常更新和维护。
③重点学科与学校对照表。上述两个库的作用,都是在提取书目信息时进行内容方面的限定。除内容限定外,目标图书馆的选择也非常重要。重点学科与学校对照表的任务就是为每一个学科提供一份客观的、能反映学科馆藏实力的学校名单,并且配置URL等相关信息。这个数据库的内容来源于教育部的《高等学校重点学科点名单》,[14 ] 该名单的学科体系与《授予博士、硕士学位和培养研究生的学科、专业目录》完全一致。依据重点学科名单,在数据库中,每个重点学科对应若干个学校,如外国哲学,对应的是北京大学和复旦大学,这样,在进行外国哲学学科的馆藏查缺时,可以选择北大图书馆或复旦大学图书馆作为目标图书馆,以获得比较可靠的比对结果。
以上述3个数据库为基础,馆藏评价与优化支持系统就可完成书目信息提取功能,进而实现书目记录的比对,通过分析比对结果,获得对馆藏建设有益的指导性信息(系统工作示意图见图1)。
4 结语
本文研究了以计算机为辅助手段的馆藏完备性评价方法,它的实现,有助于图书馆藏书质量评价工作的日常化和制度化,为优化馆藏提供了支持和保障。随着图书馆资源整合工作的不断深入,OPAC中将揭示越来越多类型的资源,可以这么说,凡是OPAC中揭示的信息,都可以利用本文所讨论的系统进行比较和评价。因此,馆藏评价支持系统的研究与实现,在未来的图书馆资源建设中一定会发挥应有的作用。
参考文献:
[1][8]沈继武,萧希明.文献资源建设[M].武汉: 武汉大学出版社, 1991:276-281.
[2]徐帮学.图书馆管理百科:图书馆管理标准规范与图书分类法(下册)[M]长春:吉林音像出版社,2003:1611.
[3]梁淑芳,关丽华.农业文献引文分析与馆藏评价[J] .农业图书情报学刊,1991,(6):15-18.
[4]刘玉兰等.清华大学获奖教材引文分析与馆藏评价[J].大学图书馆学报,1995,(1):51-53.
[5]毛莉,陈惠兰.东华大学图书馆中文图书馆藏评价分析[J] .上海高校图书情报工作研,2009,(2):8-10.
[6]高云燕.典型学科文献馆藏现状的分析与评价[J] .技术与创新管理,2009,(1):120-123.
[7]南京中医药大学图书馆[EB/OL].[2009-09-25].http://bike.baidu.com/view/2380890.html?fromTaglist.
[9]国家图书馆资源[EB/OL].[2009-09-25].http://baike.baidu.com/view/121164.htm#3.
[10]赁常彬.研究方法例说[M].成都:四川人民出版社,1985:105-113.
[11]王琦等.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,(10):1786-1791.
[12]刘玲.一种基于人工策略的WEB信息精确提取系统[J] .西南科技大学学报,2009,(06):49-52.
[13]中华人民共和国教育部:《授予博士、硕士学位和培养研究生的学科、专业目录》(1997年颁布) [EB/OL].[2009-09-25].http://www.moe.edu.cn/edoas/website18/level3.jsp?tablename=1288&infoid=12846.
[14]教育部:公布高等学校重点学科名单[EB/OL].[2009-09-25].http://www.edu.cn/20020515/3026025_2.shtml.
作者简介:张惠君(1964—),女,西安交通大学图书馆副研究馆员;李娟(1970—),女,西安交通大学图书馆副研究馆员。