论文部分内容阅读
目前DeepWeb是数据库领域研究的热点,开放存取期刊OA(Open Access)作为DeepWeb资源,以其优秀的学术共享理念得以迅速发展。但是OA期刊遍布互联网,“孤岛”现状日益严重,而传统的搜索引擎难以对其隐含的数据建立索引。解决该问题的一条途径就是将不同开放存取资源的检索服务加以整合,建立一个虚拟的数字资源空间。但该途径面临的问题首先是缺少一种灵活、可扩展的开放存取资源检索服务在线集成平台的架构模型,其次是缺乏从OA资源的检索界面自动提取检索服务模式的方法。本文在上述几个方面进行了研究。首先,根据OA期刊的特点以及建立统一检索平台的功能需求,设计了一种灵活、可扩展的OA期刊检索服务在线集成平台的架构模型,并在模型中定义了各相关功能组件及其工作方式和数据交换接口。其次,本文在对大量OA期刊的检索服务界面进行分析基础上,采用分类的思想提出一种OA期刊检索服务模式的自动提取方法。先对OA期刊的检索表单进行大范围统计,根据特征对表单元素分类,并借助于HTML文档分析技术对分类后的属性单元进行深度解析,然后根据属性单元语义信息建立一种检索服务模式描述模型,并设计一种基于XML的检索服务模式存储结构。最后,在以上研究工作的基础上,通过在实现的原型系统上的实验,对检索服务模式的自动提取进行了分析和评价,同时平台从查全率,响应时间等方面分析了平台架构模型的性能。