国外典型数字格式登记系统比较研究

来源 :北京档案 | 被引量 : 0次 | 上传用户:Maygzs
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘要:国外关于数字格式登记系统的研究发展较快,最为我们所熟知的项目为英国的PRONOM项目、哈佛大学领导的GDFR项目和加州数字图书馆领导开展的UDFR项目。本文采用文献研究的方法,分别对上述三个典型的格式登记系统的联系与区别进行全面的对比分析,重点从三者的产生背景、参与机构与项目进程,数据模型,主要功能与流程进行详细深入的比较。
  关键词:数字格式登记系统PRONOMGDFR UDFR
  Abstract: Studies on the digital format abroad registry develops rapidly, such as Britain’s PRO? NOM,GDFR led by Harvard University and UDFR launched by California Digital Library.This paper us? es the method of literature research to comprehen? sively compare and analyze the relations and differ? ences of these three typical digital registry sys? tems. It makes detailed and profound comparisons focused on three projects’origional background,par? ticipating organizations, research progress, data model, main functions and procedures,which gives us a comprehensive and in-depth understanding of three projects.
  Keywords: Digital format registry;PRONOM;GDFR;UDFR
  数字对象的长期保存是信息时代面临的一个世界性难题。一般意义上的数字文件长期保存方法包括更新、仿真、迁移和封装等,而数字文件格式登记系统则开创了一个全新的视角,成为目前较有代表性的一种。PRONOM项目、GDFR项目与UDFR项目,在一定程度上代表了国外目前的发展水平及世界未来的发展方向。本文通过对国外三个较为典型的格式登记系统进行对比分析,以期为我国建立数字格式登记系统提供思考与借鉴。
  一、数字格式登记系统概述
  数字格式登记系统全称为数字文件格式登记系统(digital file format registry),是指能对数字文件格式的属性进行描述、识别、记录和保存,支持信息系统通过公开发行和规范的机制去发现所需要的文件格式信息,进而识别、转换、展示和保存相应文件的系统。对该定义进行梳理后,笔者认为可以将其理解为:它是基于数字文件格式的应用环境和生命周期来建立描述模型,进而建立详细的属性信息,实现对格式的全面、精准的描述。简言之,一个文件的格式即代表了它产生和运用的各种条件,只有条件具备它才能够存在,这些条件即构成了应用环境。而生命周期即任何事物都存在从产生到消亡的周期规律,格式也不例外,且在技术日新月异的信息时代,格式更替变换的速度加快,对于每一种格式,它自身经历了从产生到广泛接受和运用及最后又被其他格式取代的过程,因此,要想实现数字文件的长期保存,必须掌握每种格式的生命周期性运动信息,才能保证格式所附带的信息内容的识别和读取,从而实现数字文件的长期保存。由此可见,数字格式登记系统为数字文件提供了一个全面、全程的管理框架,能够使数字文件在保存技术和环境的不断变化中实现识别、解析、迁移、转换和保存。
  二、PRONOM、GDFR与UDFR的联系
  PRONOM项目作为数字格式登记系统,是由英国国家档案馆牵头负责并将其委托给专业公司进行开发而得,作为英国国家档案馆内部资源使用。PRONOM作为数字格式登记系统的首次尝试,为数字文件长期保存开辟了新的方向,也为后来者提供了改进的空间,促使了GDFR和UDFR等更加完善的格式登记系统的诞生。
  GDFR项目旨在通过建立一个网络协议框架,实现不同注册表、不同格式登记系统之间的沟通,进而建立一个跨系统的互操作平台。这一平台扩展了PRONOM的适用范围,增强了MIME MTR的准确度,促进了数字格式登记系统的进一步发展。
  UDFR项目的实施可谓是“1 1≥2”的实践,其目的是解决PRONOM项目与GDFR项目各自为政的状况。它不仅融合了二者的格式信息和功能模块信息,更提供了语义网的开源、持续获取的平台。
  三、PRONOM、GDFR与UDFR的区别
  (一)启动背景、参与机构与项目进程不同
  PRONOM项目始于2002年,英国国家档案数字存储部为了获取有关电子文件本质属性的可信技术信息,于2000年开发了一个信息系统,这个系统就是PRONOM的雏形。该项目由英国国家档案馆下属的数字存储部负责实施,具体的技术研发事项委托Tes? sella公司进行。其开发呈明显的连续性,自2002年开始后每年或每隔一年就有更完善的版本产生,至今已更新至PRONOM8.0。由于该项目服务于英国国家档案馆的一个内部机构,因此限制了其功能和适用范围。
  GDFR项目始于2006年止于2008年,没有产生有价值的软件产品或存储数据库。其创建始于数字图书馆领域需要一个持续的、全球的数字格式登记系统,而MIME MTR对格式的细节属性描述得不够深入。在这种情况下,2003年国际图书馆协会联合会大会上提出了全球化数字格式登记系统的愿景,商讨定义一个通用的网络协议,即通过将多个独立的注册格式系统进行相互沟通,同步其格式表征信息,从而达到共通、互操作的效果。会议随后成立了由美国哈佛大学牵头,纽约大学、宾州大学、联机计算机图书馆中心和英国公共档案馆等组成的临时工作组商讨建立GDFR。   UDFR项目始于2009年4月,其实施一方面是建立在为期十年的、有众多机构参与的国际注册格式的工作实践上,另一方面是由于PRONOM与GDFR的各自为政所暴露的缺陷:PRONOM实施范围较窄,GDFR存在沟通不便、技术性较差的问题。UDFR项目是在美国国会图书馆国家数字信息基础设施保护计划项目的资助下开展的一个项目,由美国加州数字图书馆的加州大学策展中心领导开展。它的具体设计与实施由临时理事会负责管理,2010年正式开始设计实施至2012年项目结束,整个项目共两期。一期为2010年1月至12月,二期为2011年1月至2012年7月,近两年该项目仍处于二期方案的实施完善阶段,主要以开会讨论为主,每年会产生相应的会议记录之类的文件。该项目存在项目管理方面的问题,加之其隶属于一个项目的子项目,也存在资金持续性问题。
  (二)数据模型不同
  PRONOM4的数据模型较为典型,该模型分为三个等级层次,分别是核心实体、技术组件实体及两实体的联系。如图1所示,最外围为核心实体,有四个组成部分:行为体、文档、签名、知识产权(IPR)。然后是第二个层级即技术组件实体,包括文件格式、软件元件、存储媒体和硬件元件四部分。第三个层级即各个技术组件都有具体的组成部分,如文件格式是由字符编码、压缩类型、内部签名和类别等七部分组成。两个实体之间的关系会根据实体类型的不同而进行相应的定义,即一个完整意义上的格式包含了它的压缩类型、内外部签名、所属类别和家族及其对应的字符编码信息,这构成了一个数字文件的内部描述信息,然后进入其应用信息的描述,即包含存储媒体和运行的软、硬件环境等,最终构成一个独特的数字文件格式。
  从图2可以看出,GDFR5.0的数据模型在具备了PRONOM模型的基本模块的基础上新增了一些元素。最大的特点是抽象实体里的依赖性,即包括软、硬件依赖和介质依赖三个方面,这是据应用环境的一种依赖建立的关联,以实现不同注册格式的关联性,这是互操作实现的关键。比较可以发现PRONOM4的模型较为基础,GDFR5.0则新增了代理、语法和评估等几个方面的元件,而这正成就了GDFR项目全球范围互操作的目标。
  UDFR数据模型由PRONOM和GDFR的数据模型组合而成,它是在二者的基础上加上支持UDFR共享所需要附加的元件组合而成。UDFR模型最大的不同是抽象系列概念的提出,在对数字文件的格式进行基本的描述登记之后,通过抽象功能将抽象格式经过技术处理进行抽象输出,这些抽象输出进入系统,在受控词汇的作用下实现各种格式之间的互联互通,这些都为语义网的运用提供基础,实现数字文件的长期保存。
  (三)主要功能和流程不同
  PRONOM的主要功能即将数字对象存入系统对其进行监测与保护。其流程主要有四步:首先,一个数字对象进入登记系统,通过DROID对其进行格式识别。其次,对识别后的格式信息进行属性抽取,包括表征特征和内容特征,系统会赋予其一个唯一的标示符。再次,制订保存计划,包括风险测评、技术检测、影响因子评估、迁移路径生成几个模块。最后,实施迁移。迁移时会产生相应的记录文档存入系统以证明本次迁移,同时进行再次识别、确认与属性抽取,并与迁移之前的进行比较,以保证迁移前后的一致性。
  GDFR的功能则是通过开发开放的网络协议,实现不同注册格式之间的转换,通过与通用数据模型和通信协议合作,同步登记其持有格式表示的信息。其流程是:首先,将文件格式定义成一种固定的、以位序列编码的信息模型,每个格式的基本属性包括:标示符、创建者、签名、状态和注释等12个。并按照内容和物理媒介的分类体系对格式进行分类,它提供与格式定义文件的链接,描述格式定义文件的获取方式。其次,实现不同操作平台之间的互操作,从而在世界范围内读取和保存数字文件,提供管理服务、检索服务、验证服务和中介服务四种服务。
  UDFR融合了PRONOM与GDFR这两个格式登记系统的功能,并结合语义网最终实现在一个开源的、语义的和社区支持的平台上运行。其流程是:首先,规范和公开可用的文档。支持格式的导出和任何格式的输入功能,在UDFR的中央登记处,既可以提供相应的服务和工具的导出,支持英国国家档案馆开发的数字对象识别编码DROID5的使用,又可以接受记录批量导入到注册表中。其次,进行设计、开发与测试工作。设计包括Web用户界面和所涉及的所有内容,记录和证明信息的来源和审查结构的水平,以保证数字对象的质量。格式信息进入系统之后,将会被赋予一个独特的UDFR标示符。随着格式信息的变化,UDFR继承了PRONOM能够同时记录版本信息变化的功能,不同的是它记录这种变化的详细程度提升,能够精确到对具体个体的修改。
  参考文献:
  [1]梁娜,张晓琳.数字文件格式登记系统[J].图书情报工作,2005(11):80-82.
  [2]PRONOM 4 INFORMATION MODEL.[EB/ OL].[2005-01-04].
  http://www.nationalarchives.gov.uk/aboutapps/file? format/pdf/pronom_4_info_model.pdf.
  [3]The PRONOM Service:A technical registry to support long-term preservation.[EB/OL].[2004-07-29].
  http://www.nationalarchives.gov.uk/aboutapps/pro? nom/pdf/pronom servise.pdf.   [4]黄玉明.电子文件格式困局破解之道[J].中国档案,2010(7):56-58.
  [5]A Proposal for a Global Digital Format Registry.[EB/OL].[2005-09-29].
  http://hul.harvard.edu/gdfr/documents-historical. html.
  [6]UDFR project proposal.[EB/OL].[2009-11-07].
  http://udfr.org/project/UDFR- project- proposal. pdf.
  [7]Stephen Abrams and Andrea Goethals.Global Dig? ital Format Registry (GDFR) Data Model v.5.0.14.[EB/ OL].[2008-05-22].
  http://library.harvard.edu/preservation/digital- pres? ervation_gdfr.html.
  [8]Automatic Format Identification Using PRO? NOM and DROID.[EB/OL]. [2006-03-07].
  http://www.nationalarchives.gov.uk/aboutapps/file? format/pdf/automatic_format_identification.pdf.
  [9]Stephen L. Abrams.Proposal for a format registry for digital preservation.[EB/OL].[2005- 05- 25].http:// hul.harvard.edu/gdfr/GDFR-proposal.doc.
  [10]UDFR.Unified Digital Format Registry(UDFR) proposal and road map.[EB/OL].[2014-04-16].
  http://www.udfr.org/.
  作者单位:中国人民大学信息资源管理学院
其他文献
(接上期)海水的材料是油画用的丙烯光亮媒介剂(又名丙烯凝胶)(图13),白色半透明膏体,干燥硬化后完全透明,光泽鲜亮,可以和水以任意比例互溶,含水量越多流動性越好,固化后的水面就越平静。所以利用这个特性,制作者可以根据各种实际情况调制相应状态的凝胶。建议操作温度20℃以上,低于20℃有可能会在干燥固化之后开裂,含水比例越高开裂脆化越严重。  原作中Porco藏身处的小海湾水面较为平静,所以此次制作
【摘要】很多學生认为美术作业创作是一种负担,学生会因此对美术失去兴趣。学生作业的作品形式多基于传统美术教学,枯燥单一,缺乏创新。本文在形式美法则的基础上研究了小学美术作业,提出在教学过程中应小题“大作”,这是一次大胆的创新,在某种程度上重新构建和提升了课程的意义,避免使作业成为学生的负担,培养了学生的艺术感,让学生在趣味学习的过程中提高美术核心素养。  【关键词】美术作业;小题“大作”;建构  有
【摘要】作文教学是小学语文教学的重头戏,也一直是语文教学中的“老大难”问题。三年级是小学作文教学的起始阶段,在三年级作文教学中运用脑图指导学生进行写作,能够激发学生的写作兴趣,使学生掌握各种类型作文的写作要领,唤醒学生大脑的潜能,提高课堂上学生的写作效率。  【关键词】三年级作文教学;运用脑图;提高学生写作效率  语文课程标准明确指出:“留心周围事物,乐于书面表达,增强习作的自信心。愿意将自己的习
【摘要】幼儿园小班绘画教育活动评价是小班绘画教育活动的重要环节,是了解小班幼儿绘画发展水平的重要方式,是提高小班绘画教育质量的重要手段,是促进幼儿和谐发展的必备条件,也是完善教师专业素质发展的基本要求。  【关键词】小班;农村幼儿园;绘画教育活动;教育评价  本文对海安市某农村幼儿园的绘画教育活动评价现状进行了详细的调查,发现当前此班绘画教育活动评价存在评价目的偏失、评价方法单一、评价内容片面等问
忘不了的记忆  顾诵芬是1986年从沈阳调到北京,担任航空工业部第二届科技委副主任的。2009年,沈阳市总工会举办“感动沈阳60年——劳动功勋”评选,601所推荐的仍是顾诵芬。9月23日,评选活动揭晓,包括顾诵芬在内的60名劳模榜上有名。23年过去了,顾诵芬的美好身影仍然没从601所人的心目中抹去。  有人曾回忆一件小事:上世纪70年代,按照当时规定,全所各单位人员都要定期到新台子农场轮换参加劳动
【摘要】幼儿教育强调回归儿童的生活,关注儿童的现代生活。STEAM教育关注不同领域的知识经验,通过自然联系,进行相互渗透,形成综合性的、全面的素质培养。这与幼儿教育中的生活教育不谋而合。文章从STEAM教育的内涵着手,以幼儿园中班的“木工坊”活动课为例,对基于STEAM教育理念的幼儿学习力激发做了简要探讨。  【关键词】STEAM;幼儿动手能力;教育理念  STEAM教育的含义指的是由科学(Sci
飞機是一台非常复杂的機器,由几万甚至几十万个零部件组成,大多为形状特殊的复杂曲面零部件,飞機的结构尺寸大,外形复杂,其结构件主要是钣金件或复合材料壁板件组成的薄壳结构,特点是形状复杂、连接面多、刚性小,在加工、装配过程中都会产生变形。  在零部件加工的角度上,飞機零件加工过程中的每一个环节质量的好坏,都会直接影响整架飞機的装配工时。目前数控機床的普遍使用,使车间加工飞機零部件的能力得以大大加强,飞
编者按 4月7日,北京市档案学会和中国老教授协会档案与文秘专业委员会联合召开了“纪念八千麻袋事件九十周年座谈会”。会上中国老教授协会档案与文秘专业委员会常务副主任王德俊教授、中国第一历史档案馆原副馆长秦国经研究馆员、中国第一历史档案馆牛创平研究馆员、北京市档案学会理事李松龄、《北京晚报》资深记者刘一达先后发言。第九、十届全国政协委员、国家档案局原副局长刘国能先生对座谈会的召开给予高度评价,对几位同
【摘要】美术活动的开展让幼儿感受美的形式,体味到美的意义,从而对艺术有了初步认识。在美术活动开展过程中通过多种形式激发孩子的創造力,能让孩子的审美层次得到提升,并让创新精神融入孩子的思想中。文章就幼儿美术创造力的培养路径进行了探索,能够为幼儿美术活动的更好开展提供借鉴。  【关键词】幼儿美术;创造力;幼儿教育  21世纪的教育与传统教育有所不同,这是一个注重创新的时代,只有培养创新型人才,才能跟上
1975年4月30日,随着编号843的T-54坦克隆隆开进南越总统府,30年的战争最终宣告结束。而越南也给予了空军很高的评价抗美救国战争时期,空军部队胜利的开辟了“空中战场”,发扬了勇敢精神和创造性打发,牢牢掌握“消灭敌人,保卫目标,保存力量”、“以少胜多”、“以高质量胜多数量”的作战指导思想和原则,独立作战与协同作战相结合,年轻的越南空军部队打败了美帝国主义的现代化空军。从1965年4月3日的首