试论基于数据挖掘的数字档案信息管理研究

来源 :中国科技博览 | 被引量 : 0次 | 上传用户:kpku88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  [摘 要]随着社会主义现代化的发展,计算机技术的进步,信息技术在社会发展的各个领域都扮演着极其重要的角色。信息化建设被我国列为经济社会发展的首要内容,其中的网页档案化管理包括文档、文字翻译转换、图片资料、声像资料、多媒体远程会议等。本文阐述当今数字档案管理中的数据挖掘技术的应用。
  [关键词]数字化 图书管理 档案化
  中图分类号:G270 文献标识码:A 文章编号:1009-914X(2017)16-0340-01
  在信息化发展的今天,档案管理不仅要对信息进行简单的数字转换和管理,更要对新兴事物网络进行档案化管理和归档,包括文档、文字翻译转换、图片资料、声像资料、多媒体远程会议等。所以网络档案化管理,成为当今档案管理的必然趋势,这就必须对档案化管理的技术和法律相关问题进行深入阐述和探讨。
  所谓数据挖掘(Data Mining),就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本,图形,图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。数据挖掘借助了多年来数理统计技术和人工智能以及知识工程等领域的研究成果构建自己的理论体系,是涉及数据库、人工智能、数理统计、机械学、人工神经网络、可视化、并行计算等的交叉学科,是目前国际上数据库和决策支持领域的最前沿的研究方向之一。
  1 数据挖掘之功能
  数据挖掘通过预测未来趋势及行为,做出预测性的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,按其功能可分为以下几类。
  1.1 关联分析
  关联分析能寻找到数据库中大量数据的相关联系,常用的一种技术为关联规则和序列模式。关联规则是发现一个事物与其他事物间的相互关联性或相互依赖性。
  1.2 聚类
  输入的数据并无任何类型标记,聚类就是按一定的规则将数据划分为合理的集合,即将对象分组为多个类或簇,使得在同一个簇中的对象之间具有较高的相似度,而在不同簇中的对象差别很大。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。
  1.3 自动预测趋势和行为
  数据挖掘自动在大型数据库中进行分类和预测,寻找预测性信息,自动地提出描述重要数据类的模型或预测未来的数据趋势,这样以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
  1.4 概念描述
  对于数据库中庞杂的数据,人们期望以简洁的描述形式来描述汇集的数据集。概念描述就是对某类对象的内涵进行描述并概括出这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。
  1.5 偏差检测
  数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是寻找观测结果与参照值之间有意义的差别。这常用于金融银行业中检测欺诈行为,或市场分析中分析特殊消费者的消费习惯。
  2 数据挖掘在建设现代化档案馆中的应用
  2.1 资源类数据包括馆藏档案经过数字化加工而产生的各类电子档案、电子文件中心中存储的各类电子档案、档案软件收集的信息、档案信息网建设和维护信息。我们从研究档案用户的信息需求出发,数据挖掘为档案馆全面掌握和准确理解档案用户的信息需求提供了方法。
  (1) 利用Web访问信息挖掘技术发现其中的关联模式、序列模式和Web访问趋势等,构建多维视图的用户兴趣模型。从而可以确定档案信息或服务受欢迎的程度,发现用户访问模式和用户需求的趋势,从不同侧面来研究用户的信息需求,为优化档案馆的档案信息资源建设提供了科学依据。
  (2) 收集档案网web服务器保留的用户注册信息、访问记录,以及有關用户与系统交互的信息等原始数据,经过清洗、浓缩和转换形成便于统计分析的用戶查阅数据库、日志数据库、用户定制信息库、用户反馈信息等各种数据集合。
  2.2 从建设档案馆馆藏信息资源出发,数据挖掘为档案馆提供了选择一条科学发展道路的重要依据。
  (1) 利用档案网和档案管理软件访问信息的挖掘分析出档案资源的利用率,将利用率高、需求量大的传统载体档案优先数字化。例如:通过对档案信息的访问记录、检索请求中用户请求失败的数据进行分析,按类统计档案拒用集和频繁利用集,结合聚集算法发现馆藏资源的缺漏,有针对性地补充和丰富档案信息资源。
  (2) 在档案馆藏管理过程中利用文本挖掘,运用关联、分类、聚类等方法,从海量档案信息中按照相关专题进行挖掘、分类、加工、整理和有序化重组,构建特色档案信息库及各类专题档案信息库等。
  2.3 从做好档案馆信息管理工作的角度出发,数据挖掘为优化馆藏信息和对未来工作的预测发挥重要作用。
  (1) 在提供利用环节中,对用户每次借阅的信息进行关联分析,发现各类档案信息之间的关联规则或比例关系,这样可以进一步优化馆藏信息。
  (2) 开展档案馆馆藏信息文本特征的建立、特征提取、特征匹配、特征集缩减和模型评价工作,实现对大量文档集合的内容进行总结、分类、聚类、关联分析、分布分析,通过归纳与总结,发现的知识可以为未来档案工作的趋势进行预测。   3 數据挖掘在管理类数据中的应用
  档案馆的管理类数据包括:智能监控系统、消防系统、温湿度控制系统、智能密集架、数据管理系統、数据利用系统等在日常工作产生大量的管理类数据。我们得用数据挖掘工具在这类看似无用的数据中提取有价值的知识并运用到档案馆工作中,并在档案馆的现代化建设中发挥作用。
  档案馆档案工作的重点是为用户服务,以服务为中心开展各项工作,如何使用先进的工具,提高服务的质量是一直困扰我们的难题。数据挖掘为档案馆档案工作的智能化、个性化、精品化提供了行之有效的方法。在智能检索系统可调用用户兴趣模型,自动修正检索策略并可依用户兴趣将检索结果迅速聚类和分类,并条理化地排序出来;对于设计院、社科院等科研型档案用户,可借助数据挖掘开展针对性的档案信息挖掘,并将研究成果以概述、成果报告等形式提供给用户。这样不光实现了档案的二次开发,也会给用户带来意外的惊喜。
  网络最初只是科学家与研究人员之间交换文件的软件,把因特网用于教育和研究可以得到政府的补贴。在中国,各研究院所与大学都有拨款,图书馆和档案馆有资金支持,数字图书馆的网络档案馆是不赢利的,产出是科研和教学的长期社会效益。今天,因特网已经商业化了,网络在数字经济中已成为极具潜力的技术投资对象。研究院和大学数字图书馆也可以考虑建立以赢利为目的的网络档案库,采用网络商务中的一些商务模式,例如网络广告、旗帜广告、赞助广告、订阅、B2C等。收入可用于数字图书馆和网络档案馆建设的滚动发展。目前人们对这些处于萌芽中的经济模式认识甚少。管理网络的公共政策制定主体是政府部门,推行电子政务,开发网络资源,促进从文字印刷向网络出版的转移是当前相关政府部门的重要任务。相关的政策、态度和措施对数字图书馆的发展至关重要。市场手段和政策平衡是网络档案馆建设,网络档案库运行,网上内容传递和保存应该和必须考虑的。
  参考文献:
  [1] Peer to peer Networking and Digital Right Management,by Michael A. Einhorn, Bill Rosenblatt, Policy Analysis No.534, CATO Institute. Fabruary 17,2009.
  [2] What Every Citizen Should Know About DRM, aka Digital Right Management, by Mike Godwin Seuitoo Technology Counsel At Public Knowledge, 30 January, 2008, Ebook-Computer & Internet.
其他文献
[摘 要]本文针对稠油具有密度高、粘度大、流动性差的特点,其开采综合技术要求高,难度大、成本高的问题,提出了双管水循环技术,该技术的工艺原理为同轴式双空心抽油杆内循环热传导油井加热,解决了长期以来油井加热用电量大的问题。  [关键词]稠油开采;双管水循环技术;节能;降低成本  中图分类号:TE345 文献标识码:A 文章编号:1009-914X(2017)03-0012-01  我国稠油资源丰富,
期刊
[摘 要]由于城市化的进一步发展和进步,对于传统能源的过度使用导致了当前国际上普遍出现了能源危机以及环境污染的问题。这些问题随着时间的推移,逐渐变得越来越突出和严重。而太阳能是一种新型的能源,许多国家和地区都在对太阳能进行利用。利用太阳能的光伏发电是当前各个国家的能源项目,能够实现电能资源的分配与调度,构建更加科学合理的现代化的发电系统和体制。基于此,就要对太阳能的光伏发电情况进行分析,以此来促进
期刊
[摘 要]此论文主要运用切顶卸压沿空留巷理论,经过现场实践与探索,回采时利用采煤机滚筒截割刮板运输机机尾处煤体,工作面每推进800mm截深,立即在刮板运输机机尾处进行单体支柱临时支护、锚网支护、移架后打锚杆(锚索)支护、打单体、钢梁及切顶挡柱等一系列工艺,将煤机截割出的机尾段空间进行挡矸支护。最终留设出800mm长的巷道空间,如此循环,预留出设计巷道,作为下一个工作面回采的辅助运输顺槽使用。  [
期刊
[摘 要]交通工程中设置标志标线是公路部门需认真履行的重要职责,其目的在于保障行车安全和道路的交通顺畅。标示线在公路上有着提醒人们的作用,同安全存在密切的联系。所以,道路标志标线设计与施工水平的提高对行驶车辆的安全性具有重要的提高作用。本文主要对交通工程标志标线的设计和施工进行了分析研究。  [关键词]道路交通安全 标志标线 施工技术  中图分类号:U491.52 文献标识码:A 文章编号:100
期刊
[摘 要]煤矿回采遇到断层对综采工作面影响严重。本文对枣泉煤矿220602综采工作面过断层的情况进行了分析。采用采煤机直接截割和对岩石预松动爆破结合采煤机截割的方法通过断层。期间,采取一系列技术措施,对于综采工作面高效过断层有较好的借鉴意义。  [关键词]综采 工作面 断层 通过  中图分类号:TN92 文献标识码:A 文章编号:1009-914X(2017)03-0018-01  1.引言  采
期刊
[摘 要]通过自主设计铸造用锥桶形倾注式浇包的设计生产,节约生产 成本,为公司创造经济效益。  [关键词]浇包 设计 校核 生产  中图分类号:TN919.5 文献标识码:A 文章编号:1009-914X(2017)03-0017-01  设计浇包的意义  浇包是铸造生产中的浇注设备,该设备在生产中分为三类:一为手工浇包;二为半机械化浇包;三为浇注机。我公司一直使用手工浇包,随着生产规模的扩大,铸
期刊
[摘 要]矿井水灾,通常称为透水,是煤矿常见的主要灾害之一。一旦发生透水,不但影响矿井正常生产,有时还会造成人员伤亡,淹没矿井和采区,危害十分严重。所以做好矿井防水工作,是保证矿井安全生产的重要内容之一。神东矿区锦界煤矿是设计年产1500万吨特大煤矿,矿井涌水严重,工作面开采必须进行疏水工作,本文对31206工作面疏水全过程进行分析研究,为类似条件下工作面疏水工作提供了一定经验。  [关键词]工作
期刊
[摘 要]吉林油田王府地区地层存在大段的砾岩层,可钻性差,研磨性强,钻井施工过程中普遍存在机械钻速低,钻井周期长,井漏等问题,以往采用三开井身结构,钻头选型不适合,导致钻井成本偏高,降低了开发效益,严重制约了该区块的整体开发速度。多年来,以解决该区块钻完井过程中普遍存在的问题为出发点,不断开展科研攻关,形成了适合该区块钻完井配套技术,大大降低了钻井成本,为王府地区的高效开发提供了技术支持。  [关
期刊
[摘 要]本文通过阿尔及利亚东西高速公路PK128段路堑边坡病害概况,结合施工勘察结果对滑坡原因进行了分析及治理,简单阐述了抗滑桩的施工方法与技术。  [关键词]滑坡 抗滑桩 开挖 锁口  中图分类号:U451 文献标识码:A 文章编号:1009-914X(2017)03-0010-01  1.工程概况  PK128+330-PK128+610深挖方段,长280米,边坡共三级,坡比1:1.5、平台
期刊
[摘 要]随着铸造机体的试验成功,公司设计了互换性较好的单节凸轮轴,因为是新产品,没有成熟的工艺,在开始加工的时候出现了很多的问题,特别是法兰盘定位孔的加工精度达不到图纸的设计要求无法组装。通过对加工工艺以及钻镗两端法兰孔时夹具的定位、夹紧方式进行深入的研究试验,改进了加工工艺及夹具的定位夹紧方式,改进后加工的单节凸轮轴基本上都能达到设计要求。  [关键词]单节凸轮轴 法兰孔 轴颈 工艺孔 夹具 
期刊