基于WEB元数据抽取的ETL资源整合模型研究与实现

被引量 : 0次 | 上传用户:beckham11
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
数字资源整合是目前图书馆界数字化建设的一个重要方面。随着数字资源的不断增长,图书馆对资源管理的难度和工作量也在加大,用户在浩如烟海的数字资源面前也感觉到使用的不便。用户希望能够通过统一的检索界面,方便快捷地利用到图书馆所有分布式资源,包括电子图书、电子期刊等学术资源,以及文摘题录、专利成果和其他网上教学资源、会议录等形式各异的数字资源,希望图书馆提供一站式的信息服务。这就是资源整合要解决的问题。本文在依托湖南师范大学“数字图书馆”建设项目的基础之上,对ETL数据抽取模型进行深入研究后,给出了基于WEB元数据抽取的数字资源整合系统的实现模型。论文主要围绕数字图书馆元数据整合解决方案,首先简单回顾了国内外资源整合的现状;接着对资源整合的内容、模式等进行了理论分析,重点探讨了基于元数据仓库的资源整合模式;然后借助于ETL抽取模型,详细介绍了WEB元数据抽取的相关技术,包括HTML、XHTML、XML、DOM、JAXP等;接着分析了WEB信息抽取的流程,分为样本页面提取与规则库的生成、HTML页面清洗、噪音处理、DOM树解析、XML到数据库的转换存储等过程;最后结合这些相关技术和JDK、Eclipse、SQL Server、Tomcat等开发平台实现了能完成WEB元数据抽取的包装器,解决了实现基于元数据的资源整合。通过该资源整合平台,能有效地促进数字资源的有序化,实现不同类型资源的统一访问,从而保持知识体系的整体性和关联性,提高数字资源的利用率及读者的检索效率。本文的研究工作,对数字图书馆资源整合的建设和发展有一定的启示作用,希望能对国内相关机构提供一定的借鉴和参考作用。
其他文献
所谓“冒破物料”,一般而言是指在公事修造过程中,工匠、主管官吏侵欺物料,虚数开报或督察官吏知情扶同,怠慢误事。但由于“冒破物料”是一个立法概念,所以随着立法所赋予其
文章对拔尖创新型、复合型和应用型会计专业人才培养特色化进行了分析,并指出工科院校会计本科人才培养特色化实现途径应从建立服务工科行业及地方经济的应用型人才培养定位,
<正>人民法院生效的裁判,具有法律的权威,对当事人产生拘束力,当事人必须自觉履行。实践中,拒不执行判决、裁定的行为屡见不鲜。在执行中遇到拒不执行、暴力抗法时,一般很少
近年来,多投影系统的应用和技术飞速发展。在几何校正技术逐渐趋向于成熟的情况下,颜色校正技术的发展则决定了大屏幕无缝拼接的发展高度。本文从CIE-XYZ颜色空间和属性出发,
组蛋白去乙酰化酶(HDAC)是治疗恶性肿瘤的重要靶点,通过抑制HDAC能够影响多种肿瘤相关基因的转录活性。最近有研究表明,组蛋白去乙酰化酶抑制剂能够诱导肿瘤细胞对常用化疗药
2010年房地产市场面临复杂多变的经济形势,政府宏观调控增强,在新的环境中房地产业内的竞争空前加剧,成本控制已逐渐成为房地产业迫切需要解决的问题。而投资控制的关键在于
<正>"坚持只做一件事",说起来容易做起来其实很难。有多少家企业因为追逐暂时的暴利,而偏离了主业,最后走下坡路甚至倒闭?全时一直坚持自己最初的定位,无论是当年团购的兴起
从园地选择、整地定植、苗期管理、修枝整形、病虫害防治、肥水管理及适时采收等方面总结了葡萄柚的栽培技术.
以是否区分参与人的类型和程度为标准,划分了单一正犯体系和区分制共犯体系。根据我国刑法关于共同犯罪的规定,所有犯罪参与者只要为犯罪成立提供条件的,均按照正犯处理;将犯
随着中国现代远程教育工程的实施,开放教育模式的试行和普及,远程开放教育已正式成为知识经济时代人们终身学习的重要手段,电大作为中国最大的远程开放教育机构,其办学规模已