从“数字化”走向“数据化”

来源 :办公室业务 | 被引量 : 0次 | 上传用户:liuqingsong835200
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘要】“大数据”背景下,我们应以档案著录工作为基础,从档案全文数据库的建设寻找切入点和突破口,从而实现全国全网络的档案大数据平台的构建。
  【关键词】档案大数据;数据化;档案管理工作
  一、世界性的“大数据”之战
  (一)“大数据”的爆发。图灵奖得主、关系数据库的鼻祖詹姆斯·尼古拉·格雷,曾在2007年留下了演讲稿《第四范式:数据密集型科学发现》。他科学地总结并预测了人类科学发展的四个“范式”,描绘了自己关于第四范式的愿景:数据量的急速增长,计算机将不仅能进行动态模拟,还能进行分析总结,得出理论,即数据密集型科学。如今以大数据为代表的数据密集型科学的发展受到了全世界的追捧,海量信息的汇集,动态性数据的汇总使人们全方位地掌握了所要研究领域的概况及发展趋势。各个行业也在争相涉足“大数据”的研究领域中,信息资源发生了爆炸性的膨胀。
  (二)档案胀库。随着电子文件的理念被逐步推广,人们也越来越重视档案的管理工作,但没有统一规范的制度,也没有构建全国性档案信息化数据,使得档案数据形成胀库现象。和传统的因档案库房容量所限而造成的档案库房的胀库现象相似,“档案数据库胀库有着许多不同的表现形式,总体来说就是无法增加新的档案数据,或者无法进行有效的查询检索和统计分析”。出现这种现象的原因可以概括为技术性因素。20世纪80、90年代的计算机记录采用二维数据表格的形式,例如每个汉字由两个字节的长度表示。在当时的技术环境下,不能预测及生产出符合更大数据记录内存的软件和硬件。这样的条件下,档案用户直接参与利用的信息数据库和档案工作人员后台管理的档案信息储存数据库都会产生档案胀库现象。
  (三)档案大数据。“大数据”顾名思义指不采用传统的随机抽样调查分析的方法抽取数据,而是将所有的数据聚集汇合。通常我们将大数据的特点归纳为4V:Volume(数据量巨大)、Variety(数据类型繁多)、Velocity(处理速度快)、Value (价值密度低)。即数据量巨大,数据类型繁多,处理速度快,价值密度低。
  2012年在瑞士举行的达沃斯论坛发布了《大数据,大影响》的报告。这次的报告将数据归为一种新的经济资产类别,探讨了在新的数据生产方式下如何更好地利用庞大的数据产生良好的社会效益。2012年,奥巴马政府集合美国国防部、能源部、国家科学基金等六个联邦部门和机构,公布了旨在提高和改进人们从海量信息获取有效信息能力的“大数据的研究和发展计划”。此次大数据计划特别提到了美国国家档案与文件署(NARA),将档案部门的大数据上升到战略层面。对比我国国家档案局,尚未提出相关的具体政策或规划,所以我们作为档案人,有义务在档案大数据的相关问题上做出思考。
  二、从“数字化”走向“數据化”
  (一)“数字化”和“数据化”。大数据的背景下,各地区各机构的档案馆(室)的档案数量将急剧增加。所以“大数据”的提出对档案信息化工作面临新的机遇与挑战,促使档案信息化建设面临着转型与创新。我们应注意的是,档案大数据不是我们以前强调的单纯意义上的档案数字化,我们应该把档案管理的思路从“数字化”向“数据化”转化。
  所谓的“数字化”指得是将信息转变为0和1所表示的二进制数据并予以储存。档案的数字化既包括档案目录的数字化和档案全文的数字化,它是直接区分于传统纸质形式记录的档案形式。事实上档案的大数据是以数据为基准的研究模式而不是简单地录入档案目录和扫描全文,这样的数字化只是“死”的档案信息,并不能作为大数据环境下的档案研究标准。
  我们必须将“死”的档案扫描全文和档案目录变为“活”的档案大数据,这就需要对档案进行“数据化”,进行档案全文的著录工作,对文本和图像中的数字内容进行识别、分类、著录和标引的“数据化”工作,从而便于人们利用检索词检索出合适的档案信息。
  (二)档案“数据化”的实现。具体有以下几个方面:
  1.档案著录。20世纪80年代,传统的著录形式逐渐向现代著录的方式转变,代表性的美国、英国以及加拿大等国率先采用了计算机著录的方式对档案信息进行著录。档案“数据化”的实现必须依靠档案著录,“档案著录是基础性的至关重要的工作环节,档案著录质量的好坏将直接关系到档案信息的交换、互联互通、实现信息资源共享和社会利用”,这样就为档案“数据化”的实现打好了基础。我国目前采用的档案著录规则是《DA/T18-1999档案著录规则》,该标准距今已经有十几年的历史,虽然此后也发布了一些档案著录的相关细节规则,但是相比较国际档案理事会1999年公布的第二版国际档案著录标准ISAD(G)还是存在一些不足之处。我国档案著录规则在操作上容易出现错误,例如规则中规定,档案主题标引可用主题词也可以用关键词。其次,我国档案著录规则的适用范围较小,国际档案著录标准要求对档案的内容特征、背景、系统来源等一一进行著录。最后,我国的档案著录规则不包含全宗和类别为对象的著录,而ISAD(G)规定的“较为理想的著录,应由全宗级、案卷组合级、案卷级、文件组合级、文件级和分析级六个层次构成”。对比发现,我国要想实现档案“数据化”,必须参照有关国际的档案著录规则规范对我国的档案著录规则进行修改,才能有效开展档案著录工作。
  2.档案全文数据库。全文数据库指得是集检索与文献全文提供于一体的网络性数据资源集合体。建立全文数据库既避免了人工查阅文献书目的繁琐,又简便了阅读文献的方式,便于为读者提供直接在线全文阅读的服务。档案全文数据库需要从包括软件硬件在内的各个方面入手来建立,大体上可以分为三个方面。第一,档案数据库的建设。(下转第145页)(上接第171页)档案信息数据库最终要满足不同层次、不同方面的利用者的利用需求,所以这些档案数据库的数据内容、网罗覆盖范围是衡量能否满足利用者需求的决定性因素。其中数据库的数量和质量都要满足“大”的要求。数据库应包括政治、经济、军事、文化教育等各方面内容、各个时期的档案,同时这些档案也应保证真实完整、有条理有顺序。第二,档案检索系统的建设。档案检索系统是用户查找利用档案的关键。档案检索系统的界面设计应简洁且内容覆盖全面,检索应有关键词检索、目录检索、主题检索等多种入口,以满足不同利用者的需求。第三,档案服务功能建设。我国的大多数档案检索系统在这点上做得不够全面,也没有真正树立起网上服务的理念。这里的服务功能建设指得是包括引导利用和互动交流的服务功能建设,不仅要提供网站自动的介绍服务功能,还应该提供人工在线交流服务,引导和帮助利用者在线获取档案信息。   3.档案大数据平台模型构建。档案大数据是档案部门对庞大的档案信息进行有效管理的一种解决方法,档案“数据化”最终的理想目标是对其进行档案大数据平台模型的构建。“在大数据时代,个人、企业和机构都会面临大数据的问题。一般的大数据平台构建大致分为基础层、管理层、分析层和应用层,这里我们应用到档案管理工作中,必须要考虑到档案管理工作的收集、整理、鉴定等八项工作在实际档案大数据平台模型构建中的对接问题,建立适合档案部门的大数据平台。
  基础层为档案大数据平台的运行提供基础支撑的作用,提供包括存储服务器、计算服务器等高性能硬件资源,数据库、模型库等全方位的的数据资源,以及平台和服务资源等软件资源。传统的档案管理工作的八项环节应当嵌入档案大数据平台的构建中,形成管理层。在这个层面上的构建应该作为一个单独的管理设计嵌入档案大数据的平台上,所以这也要求今后的档案管理工作具有统一的档案收集、整理、鉴定的数据化的规则。分析层是掌握档案智能数据的中心以及档案数据的高速网络心脏层。它以互联网的服务体系为基础,在此基础上对数据进行存储、处理、挖掘等分析。应用层是针对档案利用者的层面,档案大数据平台的构建最终目的是为了档案利用者获取档案信息。设计时应涵盖档案馆藏的所有种类和内容的大规模的档案数据,不仅应设计简单检索和高级检索的档案全文检索服务,还应该设计档案咨询等实时在线交流服务。
  (三)档案大数据的应用。档案“数据化”的实现为我们档案部门发挥效应带来了巨大的便利。放眼国外,已经有许多国家的档案部门开展了档案大数据的应用工作。2003年4月,美国国家档案馆(NARA)的“获取档案数据库”(Access to Archival Databases,简称AAD)在ERA项目的开发下正式运行。该档案全文数据库可以在线获取原生电子文件,方便了广大居民实时在线获取档案信息,掌握档案证据。到2005年,利用者已经达到了大约130万人,并通过AAD进行了约160万次成功的查询。居民们可以通过关键词检索、主題检索、目录检索等多种检索形式获取所需档案,也可以通过“AAD工具”栏、“帮助(help)”功能等了解如何查找获取档案数据。“美国AAD建设给我国档案馆在线档案全文数据库建设的一个重要启示便是在线档案全文数据库建设应始终贯彻‘以用户为中心’的理念”,只有在这一理念的指导下才能对档案信息进行有效的数据化开发。
  近年来,随着世界经济和文化交流日益频繁,大数据不仅在国际上更是在我国的许多领域都有了收获颇丰的应用实例。我国医疗界的“3521工程”就是一个典型例子。“3521工程”是医疗档案大数据工程,旨在建设国家级、省级和地市级三级卫生信息平台。该平台建设有健康档案和电子病历两个基础数据库和一个专用网络,融合了我国绝大部分三甲医院和二甲医院的数据库信息和影像文件的数字化信息。这一医疗档案大数据的应用可以通过对庞大医疗数据的统计分析,分析预测慢性病、流行病的发展趋势并自动报警,为我国医疗事业的发展提供了有力的数据支持。
  【参考文献】
  [1]王学平.浅议我国档案数字化建设实践与发展策略[J].档案学通讯,2011(6):54—57.
  [2]张健.档案数据库“胀库”问题研究[J].档案学通讯,2012(4):49—51.
  [3]徐俊敏.我国档案数字化中档案著录问题探析[J].兰台世界,2014(5):1,4.
  [4]应海燕、乐淑芳.《档案著录规则》适用性初探[J].兰台世界,2006(17):20-21.
  [5]连志英.“以用户为中心”的在线档案全文数据库建设初探——以美国国家档案馆AAD为例[J].浙江档案,2012(4):11-13.
其他文献
随着信息技术、影像技术的迅猛发展,声像资料在血站活动中占据着越来越重要的地位,声像档案在血站整体档案中的比例不断增多,如何更加高效、安全、便捷地管理声像档案,有效地为血站事业发展服务,是血站档案管理活动中必须面临的重大课题。  一、血站声像档案管理的现状  海南省血液中心承担着海南全省无偿献血者的招募、血液的采集与制备、血液集中化检测、临床用血供应、医疗用血业务指导、血站质量控制与评价、血站业务培
摘要:在乡村振兴的大背景下,我国对于村庄规划中村庄空间环境的研究更加迫切,而对于村庄评价的研究仍存在较大缺口。本文针对规划前的村庄进行村庄空间环境评价,在确立村庄空间环境的评价指标体系后,运用AHP层次分析法,对村庄空间环境的影响因子进行权重计算,进而对村庄进行综合评价。本文以天津市石臼村为例,对村庄进行使用后评价,利用评价指标体系,得出石臼村的村庄评价综合得分,对村庄规划有一定的借鉴意义。  关
摘 要:农业经济是国民经济重要的组成部分之一,当前我国农业经济飞速发展,为国民经济的发展提供了良好的保障,在农业发展的基础上发展休闲农业已经成为当前农业发展趋势,也是进一步提高农业经济的产值,扩展农村增收渠道的方式之一。本文阐述了发展休闲农业建设美丽乡村的重要意义,并提出了相应的对策。  关键词:休闲农业;美丽乡村  中图分类号:F327 文献标识码:A  1 发展休闲农业建设美丽乡村的重大意义 
【摘要】从90后自身的特点着手,研究其政治活动,帮助学生树立理想目标,使得大学生能够充分意识到自己身上肩负的重担,从而积极投身到我国政治活动的建设中,是当前教育中的重要研究方向。本文探讨了90后大学生在政治发展中存在的相关问题,然后提出了相关的解决策略。  【关键词】90后大学生;中国梦;思想政治  一、当前90后大学生思想政治中存在的问题  (一)政治思想的热情不高。因为大学生思想政治教育的教学
《关于严禁在历史建筑、公园等公共资源中设立私人会所的暂行规定》发布  近日,中共中央办公厅、国务院办公厅转发《关于严禁在历史建筑、公园等公共资源中设立私人会所的暂行规定》,并发出通知,要求各地区各部门遵照执行。《规定》指出,严禁在历史建筑、公园等公共资源中以自建、租赁、承包、转让、出借、抵押、买断、合资、合作等形式设立私人会所。对在历史建筑、公园等公共资源中已经设立的私人会所依法依规整治,区分情况
近日,财政部发布《关于调整中央和国家机关差旅住宿费标准等有关问题的通知》。决定自2016年1月1日起调整《中央和国家机关差旅费管理办法》规定的差旅住宿费标准。一、调整北京、上海等11个城市部级干部住宿费标准、7个城市司局级干部住宿费标准和33个城市处级及以下干部住宿费标准。二、拉萨、西宁、哈尔滨、海口、大连、青岛6个受地理、气候等自然条件限制和季节性热点影响较大的城市试行差旅住宿费淡旺季标准。旺季
在浙江省诸暨市,提起赵林中    可谓家喻户晓。他是国有大型企业浙    江富润控股集团党委书记、董事局主    席,他是连续三届的全国人大代表。    履职   15年,共提交议案、建议、意  见   1000多件,四次应邀列席全国人  大常委会会议;他心怀天下,情系百  姓,提交的议案、建议、意见源自基  层,贴近群众,关注民生,大多涉及  “三农”、教育、医疗、社会保障、环  境保护、关心弱
档案信息的开发利用就是档案工  《组织史资料》丛书编纂工作。作为集  作者把档案信息通过多种渠道和方式开发和传递给利用者,从而实现档案信息的活化与共享。只有提供利用,档案工作的价值才能得到实现。那么如何发掘档案中蕴藏的有利用价值的档案信息资源,及时、准确、全面、有效地为利用者提供所需的档案信息资源,满足利用者的利用需要,成为档案工作者的一项重要工作。  一、档案信息资源开发利用的方式与途径  档案
【摘要】当前由于多方面的原因,电力企业在发展过程中出现了一些问题,因此,电力企业要推进党建和精神文明建设,实现电力企业经济效益的提升。基于此,文章首先分析了电力企业党建和精神文明建设的现状,然后提出了做好电力企业党建工作进而推进精神文明建设的策略。  【关键词】电力企业;党建;精神文明建设;现状;策略  随着我国国民经济的发展,电力企业得到了飞速发展,这就对企业的党建工作提出了更高的要求。为了切实
近日,国务院发布了《全面推开营改增试点后调整中央与地方增值税收入划分过渡方案》,明确中央与地方增值税收入基本为五五分成。该方案称,为保持现有中央和地方财力格局总体稳定,理顺中央和地方收入的划分,决定保持现有财力格局不变。这既要保障地方既有财力,不影响地方财政平稳运行,又要保持目前中央和地方财力大体“五五”格局。《方案》具体规定,以2014年为基数核定中央返还和地方上缴基数,所有行业企业缴纳的增值税