基于特征分析的数字化期刊元数据自动抽取算法

来源 :情报杂志 | 被引量 : 0次 | 上传用户：jxpyq

【摘要】

：

在对纸本期刊进行数字化过程中，元数据抽取是必不可少的步骤。传统的手工抽取需要大量的人力物力，效率很低。针对扫描期刊，提出了一种基于扫描页面特征分析的元数据自动抽取算法

【作者】

：

陈淑平梁东魁

【机构】

：

燕山大学图书馆燕山大学信息科学与工程学院

【出处】

：

情报杂志

【发表日期】

：

2010年3期

【关键词】

：

数字化期刊元数据抽取特征分析包围盒

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在对纸本期刊进行数字化过程中，元数据抽取是必不可少的步骤。传统的手工抽取需要大量的人力物力，效率很低。针对扫描期刊，提出了一种基于扫描页面特征分析的元数据自动抽取算法，分析扫描页的格式、结构、字体等特征，采用基于规则和有监督的机器学习方法进行抽取，实验表明该算法能够取得较高的准确率和召回率，同时显著地提高了元数据标引的效率。

其他文献

电子资源元数据的自动识别研究

针对电子资源元数据的特征,重点探讨了实现电子资源元数据自动识别的有效途径,其目的是识别出符合标准的电子资源元数据。借鉴树匹配方法,构建了适合于电子资源元数据识别的

期刊

元数据自动识别元数据树匹配模型名称匹配结构匹配

企业信息系统实施中的创新扩散研究

围绕企业信息系统实施全过程，从系统终端用户角度考虑信息系统实施时需采纳的创新，探索加强其在企业内扩散的策略，从而提高信息系统实施的效率。通过对实施各阶段的创新及其特点

期刊

企业信息系统实施创新扩散用户采纳

以销售带动服务服务促进销售——上饶人谈斯太尔车销售服务管理经验

我们早在1994年就抢占了斯太尔车销售和服务市场。其原因有三方面：一是地理位置十分重要。因为上饶位于江西省东北部．东邻浙江．西接安徽．南连福建；二是上饶境内的矿石、散货急需重

期刊

销售服务斯太尔车管理经验服务市场地理位置汽车运输东北部江西省

中文数据库作者字段检索功能实证研究

分析了中文数据库作者字段的检索功能与检索现状，总结了目前存在的问题，探讨了利用后控制技术解决问题的可行性。根据中文数据库的特点，引入“作者特征码”的概念构建了基于后控

期刊

中文数据库作者词表作者字段后控制技术

特色经营生意红火

云南省广南县八宝镇村民蒙跃仁,前几年开了一家小卖店,生意很红火.近年来,这个村又有4家新店相继开业,蒙跃仁的小店生意就不如以前了.他意识到,一个村子开几家同样的小店肯定

期刊

基于特征分析的数字化期刊元数据自动抽取算法

其他学术论文