元数据抽取相关论文
通过分析多分类支持向量机(SVM)的特点,建立了基于平衡二又树的支持向量机模型BBToSVM,并在训练过程中调整相关参数。得到目标支持向量......
通过对论文元数据网页的分析发现论文摘要页面的各种元数据在长度、前置引导词、分隔符等方面都具有特定的规律,并据此提出了基于元......
提出了一种SVM+BiHMM的混合元数据自动抽取方法.该方法基于SVM(support vector machine)和二元HMM(bigram HMM(hidden Markov model),简称B......
在对纸本期刊进行数字化过程中,元数据抽取是必不可少的步骤。传统的手工抽取需要大量的人力物力,效率很低。针对扫描期刊,提出了一种......
专利科学引文是非专利引文的重要类别之一,通过对专利科学引文进行分析,可以掌握科学技术间的关联关系,进而获知科学知识与技术应......
在总结现有的引文元数据抽取方法的基础上,针对引文的排版惯例——引文在文档内部风格一致,提出了一种新的引文元数据抽取方法。重......
随着计算机技术在各个领域的不断普及应用,各个企业机构也不断开始实现信息化管理的转型。在实现信息化管理的过程中,所管理的数据......
在对纸本图书数字化加工过程中,元数据录入是必需的环节,然而手工录入工作量大、效率低,针对这一问题,提出了一种基于机器学习的扫描图......
网络报纸的长期保存必须解决其元数据的抽取问题,CWM为我们提供了方便的技术框架模型。在介绍CWM的基本标准、技术、内容、框架体......
针对PDF文件的特点,应用pdfbox开源库对PDF文件进行解析,去除PDF文件的文件头、交叉引用表以及文件尾等额外的文档描述信息得到目标......
提出了一种基于分类法和主题词表的科技文献知识导航体系,该体系支持分类法和主题词表知识导航、元数据结构查询和全文检索这三种......
【目的】针对专利引文类别繁多的问题,研究自动识别其中专利科学引文这一特定类别的方法,进而准确抽取专利科学引文的标题特征项,......