论文部分内容阅读
随着电子出版物和网络技术的发展与应用,开放存取(Open Access,OA)资源得到了空前的发展。OA是国际科技界、学术界、出版界、信息传播界为推动科研成果利用网络自由传播而发起的运动。 然而,这些可以免费获得的学术性资源散落在互联网各处。要实现资源的最大化利用,最大程度地提高这些资源的价值和作用,就是将这些资源整合到一处,对外提供一个统一的查询接口。同时也提高了用户查找资料的效率,扩大了查找范围。 基于以上设想,本文利用Web技术实现了海量开放电子论文的采集与检索。将来自于互联网不同站点的电子论文的基本信息采集到数据库中,建立全文索引后,就可快速地从海量论文中检索到不同期刊上的相关的内容。本系统采用B/S的架构,并且同时扮演Web客户端和Web服务器的角色。Web界面利用Django框架实现,采集模块利用Python实现,采集的数据存储在MySQL数据库中,检索模块利用开源的全文搜索引擎Sphinx实现。系统经过半年的运行,已经采集了超过一百万篇中文期刊论文。