专利检索系统中专利信息采集模块的研究

来源 :科技致富向导 | 被引量 : 0次 | 上传用户:chenpeixin
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  【摘 要】在专利检索系统中,专利信息采集模块是最重要的模块,它能保证查询到的专利信息是网络中最新的。本文详述了专利检索系统中专利信息采集模块的设计和实现方法,其中对采集流程和用到的网络爬虫技术做了详细的介绍。
  【关键词】专利信息采集;网络爬虫;索引;分词处理
  在当今社会,专利技术作为一种无形资产与社会财富,它和材料、能源等资源同等重要,在当今知识爆炸的社会中有着重要的作用。目前,社会上有许许多多的专利检索系统,功能各不相同,但专利信息采集模块是十分重要的一个模块,它从Internet上获取专利信息,让专利查询者可以更好及时的获取网络上最新的专利信息,对专利查询者的专利研究起到很好的作用。
  根据专利检索与服务实际应用,我们可以将系统分为专利利用、竞争对手专利分析、专利信息采集、专利检索、专利的受理、系统管理6个功能模块,系统的结构图如图1所示。
  图1 系统功能结构
  专利受理模块是实现用户提交专利申请、回复以及相关信息的管理。竞争对手专利分析模块为用户提供一个对产品信息快速技术分析的工具,用于监视竞争对手技术动向;模仿创新,产生更富有竞争力的新产品和新工艺。专利利用模块主要为专利的使用者提供一个交流平台。专利检索模块实现面向专利信息的全文检索功能。系统管理模块主要包括系统初始化工作、用户权限管理、数据备份、回复、日志等功能。专利信息采集模块实现对互联网上最新专利信息的获取。
  在专利检索与服务系统的六大模块中,专利信息采集模块是系统实现的难点也是一个重点,它在开发中应用到网络爬虫技术,它实际上是一个基于Web的程序,它从一个初始网页出发遍历互联网自动地采集网上信息。当其进入某个超文本页面时,它利用Html语言的标记结构来搜索信息和获取指向其他超文本的URL链接,通过一定的算法选择下一个要访问的站点继而转向另一个站点继续搜集信息,其处理流出如图2所示。
  图2 专利信息采集处理流程图
  网络爬虫的系统一般由控制器,解析器,资源库三部分组成。三部分协调工作,共同完成爬行搜索任务。控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一个线程,然后启动线程调用爬虫爬取网页的过程;解析器是负责网络爬虫的主要部分,其负责下载网页的功能,对网页的文本进行处理,分析数据功能;资源库主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。
  系统中专利信息采集引擎采用主题型搜索引擎技术,即以构筑某一专利主题的网络信息资源库为目标,智能地在互联网上搜集符合这一专题的信息资源。搜索引擎结构图如图3所示。
  图3 专利搜索引擎模块组成部分
  采用基于内容的搜索技术,其主要实现方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。可以较好地解决了信息检索过程中的词汇不匹配问题以及信息过载问题,大大提高了信息检索的效率和质量。
  专利信息采集模块由Spider、索引器、分析器、检索器、任务管理器五个部分组成。首先通过Spider程序,访问网站并搜集专利信息和专利影像档案信息。专利信息保存为xml格式的文件,然后由分析器对专利信息的xml文件进行分词,词法分析器根据专利信息的特点,分别进行英文、亚洲文字的分词处理。索引器将经过分词处理后的专利信息创建索引,并计算出token值。使用Appache+Tomcat发布系统的检索网站,当用户通过入口网站进入检索页面,并提交检索关键字,检索关键字经过分析器进行词法分析器进行分词处理;经过语法分析器生成语法解析树。检索关键字被传送到检索器,检索器从索引中检索出结果,并高亮显示后返回给用户。
  该模块利用服务器端操作系统的任务计划功能,定时运行数据采集程序,初始设定采集周期为一个星期,用户可以根据需要对此进行修改。专利信息采集分为单个目标网站采集和私人用户信息采集两种方式。
  (1)单个目标网站采集流程,该模块首先从公共主题词表P_KEY_PUB中逐条获取记录。针对某个网站对每条记录进行如下采集操作。他的采集步驟如下:
  首先解析采集对象网站对应的xml文件,其次根据解析结果利用Http Client工具进行数据采集,再根据xml文件提供的格式解析数据,获取所需要的专利信息。最后依据黑名单对采集的信息进行筛选,将需要的数据存入公共临时专利数据库表P_TMP_PUB中。
  (2)私人用户信息采集与单个目标网站采集流程类似。但是也有区别,主要区别如下:
  一是所有私人用户的信息采集参数都先放在私有主题词表P_KEY_PRI中。私人用户可以添加、删除主题词。
  二是所有私人用户采集的专利信息存放在私有专利数据库P_TMP_PRI表中。
  三是信息采集的周期初始化为1天,比如每天晚上12点进行采集。
  四是私人用户可以对采集到的专利信息记录进行删除、推荐。推荐的专利记录添加到公共临时专利表:P_TMP_PUB,由管理员进行审核。
  专利信息采集模块功能主要实现关键词管理、黑名单管理和新采集专利管理三个功能。关键词管理主要为管理员提供管理采集关键词的功能,可以执行添加、删除和修改的操作。黑名单管理功能主要对被加入黑名单的专利进行处理,包括:入库、删除、快速检索等。
  我们只有掌握了专利检索系统中专利信息采集模块的设计,才能更好地对这个模块进行实现。通过使用合适的网络爬虫技术和全文检索技术,我们就能更好的在网络上对专利信息进行爬取,使得爬取的专利信息更好的为专利查询者服务,达到设计系统的目的。
  【参考文献】
  [1]刘佳佳,董旻,方曙.国外专利分析工具的比较研究[J].现代图书情报技术,2007,(02).
  [2]杨洋.基于多Agent系统的专利采集系统研究[D].北京工业大学,2010.
  [3]刘晨.专利信息获取与分析系统关键技术研究[D].北京工业大学,2009.
其他文献
阅读下面的每个问题,选择你最认可的答案。1、在学校的游戏中,人们提供给你两种角色,你会选择哪一个?A、主角,非常光彩,很多人会注意你。B、一个不那么显眼的角色,但是会让你
【摘 要】本文对终身体育的内容、形式及其意义做了简要的阐述,并从高职院校体育教育在终身体育中的地位与作用等方面入手,对高校体育教育过程中如何培养学生的终身体育意识提出了一些拙见。  【关键词】高职院校;体育教育;终身体育意识  0.前言  进入21世紀以后,随着高新技术的迅猛发展,未来社会对人的素质要求也越来越高。一个国家劳动者的素质是决定一个国家经济水平,也是综合国力的重要因素,身体素质则是劳动
本文通过分析文科学生的特点,讨论了文科高等数学课程开设的意义、文科高等数学教学目标和教学内容的设置原则,并提出了文科高等数学教学方法和手段创新、教材建设、师资队伍建
摘要:当前,中学历史教学已经开始了新的改革,那就是抛弃应试教育的就史讲事,尝试三维目标下的素质教育把“史”讲“活”,以兴趣和激情来活跃气氛。以培养学生动脑,动手,实践,创新的能力,培养学生正确的三维理念,形成良好的生活心态。而且和谐的课堂气氛符合学生的求知欲和心里特点,学生也因此能够充分的发挥其主动性和创造性,所以良好的课堂气氛是发挥学生主体作用的前提条件。  关键词:新课标;高中历史  历史新课
本文通过对荣华二采区10
期刊
本文通过对荣华二采区10
计算机硬件更新换代日新月异,影响存储速度的磁盘控制器与相关技术也随着快速发展,新的磁盘控制器或新的工作模式让存储越来越快,因此相对应的Windows操作系统因磁盘控制器驱
网络教育功能强大,大学生受其影响日广日重,但其双刃工具性使高校思想政治教育机遇与挑战并存.如何利用网络加强和创新高校思想政治工作是摆在每位高校辅导员面前的首要工作.
培养学生实践创新能力是高等教育必须承担的责任,对食品科学与工程卓越农林人才建设理念、课程体系建设方案、创新实践能力培养模式等方面进行探讨,阐述北京农学院在食品科学
城市就像一块海绵,吸汲着这些不断涌流的记忆的潮水,并且随之鼓胀着。然而,城市不会泄露自己的过去,只会把它像手纹一样藏起来,它被写在街巷的角落、窗格的护栏、楼梯的扶手、避雷的天线和旗杆上,每一道印记都是抓挠、锯锉、刻凿、猛击留下的痕迹。——卡尔维诺《看不见的城市》   每个城市都有自己的记忆和记忆特殊之处,比如昙华林,就是中国近代史的重要发生地。昙华林位于武昌东北角,由于过去此地多小型庭院,并多植昙