英国政府网页归档与开发的新实践及其启示

来源 :档案与建设 | 被引量 : 0次 | 上传用户:zchunhua3120
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘要]英国政府网页档案馆负责保存1996年以来英国政府产生的英国政府网页档案,其对于政府网页的归档和开发利用一直走在世界前端。近两年,英国政府网页档案馆在建设模式、技术手段、服务利用方式等方面都有了新的实践,这些新的实践对于我国政府网页归档和开发利用有着重要的借鉴意义,我国应积极构建政府网页归档政策框架,对政府网页资源进行细颗粒化开发与利用,开展面向全社会的深度合作,走出一條符合我国实践情况的政府网页归档与开发之路。
  [关键词]政府网页档案馆政策框架细颗粒化社会合作
  [分类号]G279.1
  The New Practice and Enlightenment of the UK Government’s Web Archiving and Development
  He Yuyan
  (Department of Library, Information and Archives of Shanghai University, Shanghai, 200444)
  Abstract: The UK Government Web Archives is responsible for preserving the British government’s webpages archives that generated by the British government since 1996. It has been at the forefront of the world for government’s webpages filing and development. In the past two years, the UK government web archives have had new practices and attempts in construction mode, technical support, and service utilization methods. These new practices have important reference value for our country. Based on these experiences, we should Actively construct a policy framework for the government’s webpages filing, fine- grained develop and use of government webpages resources, and in-depth cooperate with the whole society, in order to develop a road to file and develop government’s webpages, which conform to the condition of our country.
  Keywords: Government’s Web Archive; Policy Framework; Fine Grained; Social Cooperation
  1引言
  1999年1月,政府上网工程启动大会在北京举行,标志着“政府上网”工程正式启动。项目启动至今的近20年时间内,该项工程取得了良好的成效。《全国档案事业“十三五”规划纲要》中指出,到2020年的发展目标之一是实现档案资源的多样化和利用的便捷化。政府网页是展现政府形象的重要窗口和履行政府职能的关键工具,是不同历史时期社会面貌的全面反映,政府网站中的信息可以为政府、社会组织和个人提供知识,具有凭证价值、记忆价值和知识价值,理应成为珍贵的数字档案资源被归档保存,并加以更加细颗粒化的开发和利用。如今,大数据、云计算等新兴技术的发展为政府网页的归档保存和资源开发提供了新的契机。
  英国政府是互联网的早期使用者,其网站可追溯到1996年,英国政府网页档案馆负责保存1996年以来英国政府产生的英国政府网页档案、英国政府社交媒体账户的推文和视频档案,用户可以在其中浏览英国政府网站的整个历史,甚至可以浏览到一些已被剔除的部门举措,例如2010年已经停止使用的教育维护津贴等举措的信息记录。自成立以来,英国政府网页档案馆已经保存了巨大规模的数据,包括5000多个网站以及来自政府社交媒体账户的推文和视频,截至2018年档案数据的拥有量超过120TB[1]。如何实现如此大规模体量的数据管理与开发利用,是英国政府网页档案馆近年来不断探索的主题。近年来,随着用户需求的变化和技术的飞速进步,英国政府网页档案馆开始了变革和创新的新实践,这些实践经验对于我国政府网页的归档具有重要的借鉴意义。因此,本文以英国政府网页档案馆的近几年来的实践新动态为例,从建设模式、技术手段、开发方式等方面进行解析,并提出对于我国政府网页归档保存及资源开发的借鉴和启示。
  2英国政府网页档案馆的实践新动态
  2.1以合作共建为主要建设模式
  英国政府网页档案馆隶属英国国家档案馆,自2003年以来,国家档案馆一直通过英国政府网络档案馆定期拍摄英国中央政府网站的“快照”。英国国家档案馆产生的网络流量比所有其他国家档案网络服务的流量高出数倍,因此政府网页档案馆一直与拥有专业知识的外包商合作,管理这种规模的网页收集和开发。2016年之前,英国政府网页档案馆还是主要以自主管理模式为主,但由于数据量的不断增多,自主管理模式面临困境,因此逐渐开始探索合作共建模式。2017年7月,英国政府网页档案馆开始与互联网记忆研究基金会(Internet Memory Research,简称IMR)合作,互联网记忆研究基金会于2011年在巴黎成立,是最早一批专门从事网页归档的组织,该组织借助大规模网络爬虫,数据存储和处理的技术和能力,帮助客户收集,处理和利用海量数据[2]。英国政府网页档案馆通过IRM构建的数据中心来保管捕获到的大量政府网页数据。伴随着英国政府档案馆需求的更新,为了满足英国国家档案馆的“云优先”存储要求,即网络资源必须存储在云上,英国政府网页档案馆开始寻求新的合作伙伴。他们最新的合作商Mirrorweb是档案云存储方面的专家,该公司的主要业务是提供动态的、可扩展的网页归档与社交媒体归档的云存储平台[3]。为使访问者获得更佳的用户体验,英国政府网页档案馆还曾与美国洛斯阿拉莫斯国家实验室合作,使用其开发成果Memento,以添加插件的形式允许用户通过使用Web档案访问特定的Web资源(例如,网页,文档或数据),并在过去的某个时间访问特定的Web资源,从而为Web添加时间维度[4]。与此同时,英国政府档案馆也通过博客、推特等新媒体平台发布当前他们遇到的技术或管理障碍,广泛接纳用户的反馈并呼吁公众为其建言献策,提供更好的解决方案。   以上可以看出英国政府网页档案馆积极寻求与外界的合作共建。他们立足自己的需求,寻求与技术供应商、研究所、基金会、用户等组织和个人开展广泛合作。这种合作共建的模式一方面为英国政府网页档案馆实现超大规模数据的长期安全保存提供了保障,另一方面也能够不断适应理念和技术的更新迭代,保持技术先进性和活力,为档案馆访问者提供最佳的用户体验。
  2.2以云存储为核心技术支撑
  为响应英国“云优先”政策,即在进行技术投资时优先选择云服务,英国政府网页档案馆开始探索以云存储为核心的技术支撑。云存储对于英国政府网页归档的主要优势主要有:首先,云存储技术可以应对档案馆超过120TB的庞大数据量的管理;其次,云存储便于存储空间的扩展;最后,云存储使得基于网页的服务更加安全与便捷。深化与云服务提供商Mirrorweb的合作,对大量数据进行云迁移并建立数据索引是英国政府网页档案馆的最新实践。在与Mirrorweb合作之前,大量数据存储在标准格式ARC文件中,最初档案馆采用互联网直接传输加密文件的传输手段,但这种方法效率低且易出错。后来英国政府网页档案馆尝试使用物理媒介传输,使用英国国家档案馆物理数据传输标准媒介2TB USB-3硬盘。在2015年至2017年之间,大约120TB的数据通过这种方法传输,数据通过外包公司的捕获后到达档案馆自己的Kew站点,再转移到硬盘上进行长期保存,这种方式虽然利于保存,但很难实现大量数据的快速访问。而后英国政府网页档案馆采用PB级数据传输解决方案亚马逊Snowball传输技术,将数据复制并加密到内部硬盘驱动器,然后将其运送到亚马逊网络服务数据中心以便传输到云端。云传输技术的使用使得英国政府网页档案馆得以在两周之内完成120TB数据的迁移,大大节省了数据迁移的时间成本,也保证了海量数据的安全可用。在网页的捕获上,英国政府网页档案馆使用最先进的技术来捕捉网站并使存档网站可以访问。包括使用Heritrix(专为网络归档设计的网络爬虫。由Internet Archive撰写,可以通过免费软件许可获得,并以Java编写[5])网络爬虫的最新稳定版本来捕捉网站并使用pywb来回放存档网站,这一方法已帮助政府网页档案馆解决了旧的web档案中存在的许多访问上的问题[6]。
  除了将云存储技术作为当前英国政府网页档案馆的核心技术支撑以外,英国国家档案馆目前正在积极调研和探索区块链技术在档案管理中的运用,该研究项目名为Archangel,由萨里大学(University of Surrey)主导,合作伙伴包括开放数据研究所等。该计划还将探讨区块链可以在多大程度上解决与档案管理有关的紧迫问题。该项目旨在通过区块链技术的运用保证档案馆记录的真实可信[7]。英国政府网页档案馆也是英国国家档案馆的组成部分之一,在未来也将会共享此项目的成果,运用区块链等更新的技术来保障保存的政府网页和社交媒体记录真实可信和长期可用。不断进行支撑技术的创新迭代,是英国政府网页档案馆得以长久稳定的运行和为公众提供利用的关键因素之一。
  2.3以检索功能为利用服务特色
  英国政府网页档案馆网站隶属于英国国家档案馆,以在线网站的形式为社会各界提供利用。政府网页档案馆网站设置在英国国家档案馆网站中“帮助你的研究(Help with your research)”栏目下,并列的项目还有“探索我们的目录(Search discovery our catalog)”“从这里开始你的研究(Start your research here)”等栏目,因此可以看出,政府网页档案馆的定位是英国国家档案馆为用户的研究提供利用服务的一种重要方式,因此,政府网页档案馆十分重视不断完善档案馆网站的信息检索服务,不断探索如何使得用户能够更便捷地利用已归档的政府网页和社交媒体。英国政府网页档案馆强大的检索功能,主要体现在其为用户提供了多种多样的检索方式。档案馆首页中涉及检索功能的模块有两个:一个为直接检索(Search),用户在检索框中直接输入检索关键词即可。同时检索功能支持对直接检索结果进行进一步筛选,用户可以通过关键词、网址、文件格式类型(目前支持Excel、HTML、Text、Word、PDF、CSV六种格式类型)和年份对简单检索结果进行进一步筛选,提高检索效率。另一个检索模块为字母A-Z的索引检索,用户可利用需要查询内容的首字母与索引进行比对,更加直观和快速地找到所需内容。此外,用户使用指南被放在网站首页显眼的位置,用户可以通过查询操作指南,最快速和全面地了解如何使用该档案馆的检索功能。
  2015年底英国政府网页档案馆进行了一次全面的用户调研,结合现代化技术,对其服务功能进行了改进和完善,截至目前已取得了一定成效。首先从网页视觉设计上,新改版的网站摒弃了之前首页多图片的设计,仅仅在首页中呈现一张图片,其余只设置六个板块以供用户检索。通过关注小细节,实现更流畅的用户体验。2015年的用户调研结果表明,用户反映之前的全文搜索不可靠,功能有限,检索功能需要改进。英国政府网页档案馆的最新实践是:第一,在云端运行检索,以保证检索的流畅可靠运行。第二,将OCR(光学字符识别)软件作为索引过程的一部分运行在PDF格式文件中,因此现在可以搜索从纸质原件扫描的文档内容,也可以实现包括政府部门,类别和捕获年份等搜索结果。第三,全文搜索索引从之前的每季度更新转变成每月更新,以保证新捕获的网站能够更加快速地实现检索。自2016年以来的以上新尝试,都体现了英国政府网页档案馆将为用户提供更加优质的服务作为首要任务,不论从技术上还是管理上,都进行了不断的探索和完善。
  3对我国政府网页归档的启示
  3.1构建政府网页归档政策框架
  2017年5月《国务院办公厅关于印发政府网站发展指引的通知》发布,其中提到“网页归档是对政府网站历史网页进行整理、存储和利用的过程。政府网站遇整合迁移、改版等情况,要对有价值的原网页进行归档处理。归档后的页面要能正常访问,并在显著位置清晰注明“已归档”和归档时间”。我国网页归档项目最早始于2002年1月,在国家“973”和“985”项目支持下,由北京大学网络实验室开发建设的中国网页历史信息存储与展示系统,称为中国Web信息博物馆,截至目前已经维护有9056638059个网页。2003年初,我国国家图书馆正式启动“网络信息资源保存”试验项目(Web InformationCollectionand Preservation, WICP)并于同年11月20日開通“网络信息资源保存”项目主页提供服务[8]。目前,一些省市档案馆也开始进行政府网页归档的探索,将政府网页作为珍贵的数字档案资源加以保存。总体来看,我国政府网页归档工作还处在相对分散、自成体系的阶段,缺乏法律、政策和标准上的统一。因此,首先应从政策和法律上明确政府网站归档的重要性和价值,将政府网页纳入国家电子文件管理与数字档案资源建设体系中去;其次应从宏观层面对政府网页的概念、特征、属性、类别、技术标准等基础问题进行界定;最后应明确政府网页归档的责任主体与权责分配,档案馆在政府网页归档、长期保存与开发利用上不可缺位,应从制度上强化档案馆在此方面的职责。   3.2探索政府网页资源的细颗粒化开发与利用
  政府网页中这些高密度的信息具有显著的价值,对政府网页加以归档保存的最终目的,是为了充分挖掘政府网页中蕴含的知识和价值,为社会提供利用。长期以来,我国的档案管理传统倾向于粗颗粒的保管,“重管轻用”的工作模式依然存在,显然这种模式已不适合于像政府网页这样的新型数字档案资源。如今,新兴技术的发展为政府网页资源的细颗粒化开发创造了诸多有利条件。首先,政府网页资源的开发应做好基础利用工作,保障用户可以获取到已归档的政府网页资源。这需要对已归档的政府网站资源进行整合,提供开放查询平台和多样化的检索工具,正如英国政府网页档案馆提供首字母检索索引。其次,随着用户需求的不断提升,开发利用工作应不仅仅局限于为用户提供原生资源利用,而是应广泛应用文本挖掘、语义关联、知识图谱、可视化等技术,对已归档政府网页中的数据进行语义级的开发,还可以联系其他档案资源类型进行联合开发,探索如何为用户提供更多样化、知识化的内容和产品,如利用政府网页中的数据举办在线专题展览、开发文化创意产品等。最后,在政府网页资源的开发和利用过程中,应充分调动公众的参与积极性,采用众包形式汇聚更多人的智慧,实现对政府网页资源的多角度、多层次的开发和利用。
  3.3开展面向全社会的深度合作
  总结英国政府网页档案馆项目的经验可以发现,英國政府网页档案馆根据自身不同时期的业务需求,与社会各界广泛开展合作,而我国政府网页归档进程中在这一方面则有所欠缺。为此,档案馆在开展政府网页归档项目时,其一,应积极寻求与社会资本合作,如将海量政府网页数据的捕获、存储、迁移和长期保存等工作交由有经验和资质的技术供应商来完成,诸如IBM、SUN等国外知名网络服务供应商或浪潮、曙光等中国本土企业都可以为政府网页归档提供更加专业化的解决方案。通过英国在“云优先”背景下选择改变以往的技术手段,与云服务供应商合作这一举动可以看出,服务外包模式的优势在于有助于保持政府网页归档和保存项目的先进性和灵活性,档案馆可以根据不同时期的现实需求选择不同的技术服务商,以保障这项工作的长期稳定开展。除了与外包服务商合作以外,还需要对政府网页资源的生成者,以及政府职能部门及政府网页资源的使用者,即政府网页档案馆的用户开展深入的调研和互动。英国政府网页档案馆不断完善的动力,很大程度是为了解决用户调研中发现的问题,从而提供更好的用户体验。我国在开展政府网页归档工作时,也应开展深入的调研,利用更多量化数据,以便形成适合我国实际情况的政府网页归档与开发利用方案。
  4结语
  英国政府网页档案馆长期以来能够稳定运行,并能为用户提供良好的服务得益于合作共建的建设模式、不断更迭的技术支撑和不断改进的服务利用方式。我国政府网页归档和资源建设尚未形成成熟完善的发展态势,在思维转变、法规政策、建设模式、技术水平等方面都需要进一步的探索和提升。英国政府网页档案馆的成功实践给了我们很多有益的借鉴和参考,我国政府网页档案的归档保存和开发利用工作应该积极吸纳这些先进经验,并在充分调研的基础上,走出一条符合我国实际情况的政府网页归档和开发之路。
  参考文献
  [1]How to move a 120 TB web archive to the cloud in two weeks[EB/OL].[2018-6-13].https://blog.nationalarchives.gov.uk/blog/move-120-tb-web-archive-cloud-two-weeks/.
  [2]About internet memory research[EB/OL].[2018-6-17]. https://internetmemory. net/en/about/#about.
  [3]Web & Social Media Archiving for Business and Government[EB/OL].[2018-6-17]. https://www.mirrorweb.com.
  [4]Memento in the UK Government Web Archive[EB/OL].[2018-6-17]. https:// blog.nationalarchives.gov.uk/blog/memento-in-the-uk-government-web-archive/.
  [5]Heritrix[EB/OL].[2018-6-27]. https://en.wikipedia.org/wiki/Heritrix.
  [6]The UK Government Web Archive is now even better[EB/OL].[2018-6-27]. https://blog.nationalarchives.gov.uk/blog/uk-government-web-archive-now-even-better/.
  [7]英国政府官方档案馆正测试区块链技术[EB/OL].[2018-6-27]. http://bitejie. net/news/19098.html.
  [8]曹玲,颜祥林.美国国会图书馆网页归档项目的新动向[J].档案学研究,2018(2): 125-128.
其他文献
千年流淌在江南大地上的古运河,恰似一部活化的史诗,诉说着两岸秀美的风光、人类的活动和文明的绵延。那些曾经的浪花,历经沧桑岁月,虽然已经消失,但见证了社会的发展,成为运河史上闪光的一页。这里要说的便是伴随着运河而来,消逝于民国初年的驿站。  驿站,是人们为传递信息而间隔一定距离设置的专门站所。古往今来,先有陆驿,后有水驿。在古代,最早以邮驿的方式出现。周代的典制有记载:“凡国野之道,十里有庐,庐有饮
纪锷,1924年生于金坛,毕业于南京鼓楼二中。抗战胜利后,20岁刚出头的他,心里佩服金坛政界人物——抗战时被人称为"背包县长"的倪良(金坛涑渎人,抗日战争期间曾任金坛县县长),便投
1757年,清代乾隆帝第二次南巡,两淮盐政高恒为了让这位钟情于山水的皇帝感受到扬州的新变化,一边忙着开挖整治瘦西湖,一边修建了一座风格独特的石桥——五亭桥。后因两淮盐引弊案告发,高恒获罪被诛。查阅《清宫扬州御档》的多份奏折及相关清代史料,可知高恒所在家族可谓名门望族,其上辈、同辈以及晚辈中,不乏朝廷达官贵人。了解他们不同的官宦之路和人生轨迹,抑或可以引发人们对这段清史的更多了解和更深思考。  高斌
[摘要]新西兰在开放政府数据领域居于国际领先地位,其档案馆在开放政府数据运动中发挥了积极作用。论文以新西兰开放数据运动为研究对象,探讨新西兰档案馆在开放数据运动中的角色定位,其作为开放数据政策的制定者、开放数据提供机构的监管者、开放数据集的提供者,在开放数据运动中发挥了巨大作用。我国档案机构还未大规模地参与到政府开放数据运动中,今后应积极开放和开发数据资源,主动参与开放数据平台的建设,推动制定开放
4月2日,江苏省档案馆“新时代新作为——档案编研论坛”在南京举行。此次论坛由《档案与建设》编辑部承办,旨在通过专家论坛,推进档案业务建设,加大档案资源建设与开发利用,
历史被记录下来后,不知道会以何种方式显现,也不知道会沉默多久。如同人类的记忆那样,档案是历史的记录,也会在当代生活里缺席,被忽略,被遗忘,被寻找。传统档案的形象有点神秘,深远寂
[摘要]自无锡市制产生后,工商实业家就积极参与地方治理。他们借助商会、市公所、行业协会等组织,在城市管理中发挥着重要影响。他们与政府既有合作,也有批评与冲突。多元化的城市治理模式既折射出了实业家们强大的话语权,也反映出了民国时期政府权力的有限。  [关键词]无锡城市治理工商实业家薛南溟钱孙卿  城市在我国很早就出现了,可市政制度的历史却不长。王朝时代的城镇,不管工商业如何发达,人口如何集中,地位如
金陵中学的图书馆最初是与金陵大学图书馆合一的。1910年前,基督、汇文两书院均有少量书籍,功用虽微,但为图书馆奠定了最初的基础。其时,汇文书院图书数量极其有限,仅几十册而已,尚未形成系统、规模,其根本原因在于学生读者的数量没有形成规模。汇文书院第一届学生仅5人,该书院办学21年,毕业生仅80人,平均每届仅4人。由于学生人数太少,以至于书院结构极为简单,除了院长就是十余名教师,从未设置过任何机构。当