论文部分内容阅读
随着Internet的快速发展,Web电子期刊资源已经成为人们获取信息的主要来源。读者在浩如烟海的期刊中查找到所需要的信息具有很大的挑战。如何将各种信息资源进行有效地集成,便于读者直接检索,查找到相关的信息是信息资源整合的核心问题。信息抽取技术是解决这个问题的重要手段。
基于Web的电子期刊的信息抽取平台采用信息检索、信息抽取和网格技术,应用于期刊文献的共享,存储和检索。平台具有一站式检索和文献获取的功能。一站式检索和文献获取主要是通过对网页表单的分析,模拟用户登陆、查询、获取表单参数,获取各种查询信息页面的网址。在文献的信息抽取中,主要采用基于模式匹配的信息抽取算法,通过对信息区域的预处理,实现对信息块的粗定位,结合抽取信息的特点,对不同样本页面的信息进行归纳学习,构造出各种信息的正确抽取模式,将期刊文献中的标题、作者、地址、关键词、摘要、分类号和期刊号等各种信息抽取出来,为系统提供信息(数据)源。
平台性能测试表明,从各种期刊中抽取出作者、标题、摘要、关键词等信息,查全率和精确度大大高于一般的信息抽取方法,取得了比较令人满意的效果,说明了此方法的有效性。