论文部分内容阅读
【摘 要】在专利检索系统中,专利信息采集模块是最重要的模块,它能保证查询到的专利信息是网络中最新的。本文详述了专利检索系统中专利信息采集模块的设计和实现方法,其中对采集流程和用到的网络爬虫技术做了详细的介绍。
【关键词】专利信息采集;网络爬虫;索引;分词处理
在当今社会,专利技术作为一种无形资产与社会财富,它和材料、能源等资源同等重要,在当今知识爆炸的社会中有着重要的作用。目前,社会上有许许多多的专利检索系统,功能各不相同,但专利信息采集模块是十分重要的一个模块,它从Internet上获取专利信息,让专利查询者可以更好及时的获取网络上最新的专利信息,对专利查询者的专利研究起到很好的作用。
根据专利检索与服务实际应用,我们可以将系统分为专利利用、竞争对手专利分析、专利信息采集、专利检索、专利的受理、系统管理6个功能模块,系统的结构图如图1所示。
图1 系统功能结构
专利受理模块是实现用户提交专利申请、回复以及相关信息的管理。竞争对手专利分析模块为用户提供一个对产品信息快速技术分析的工具,用于监视竞争对手技术动向;模仿创新,产生更富有竞争力的新产品和新工艺。专利利用模块主要为专利的使用者提供一个交流平台。专利检索模块实现面向专利信息的全文检索功能。系统管理模块主要包括系统初始化工作、用户权限管理、数据备份、回复、日志等功能。专利信息采集模块实现对互联网上最新专利信息的获取。
在专利检索与服务系统的六大模块中,专利信息采集模块是系统实现的难点也是一个重点,它在开发中应用到网络爬虫技术,它实际上是一个基于Web的程序,它从一个初始网页出发遍历互联网自动地采集网上信息。当其进入某个超文本页面时,它利用Html语言的标记结构来搜索信息和获取指向其他超文本的URL链接,通过一定的算法选择下一个要访问的站点继而转向另一个站点继续搜集信息,其处理流出如图2所示。
图2 专利信息采集处理流程图
网络爬虫的系统一般由控制器,解析器,资源库三部分组成。三部分协调工作,共同完成爬行搜索任务。控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一个线程,然后启动线程调用爬虫爬取网页的过程;解析器是负责网络爬虫的主要部分,其负责下载网页的功能,对网页的文本进行处理,分析数据功能;资源库主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。
系统中专利信息采集引擎采用主题型搜索引擎技术,即以构筑某一专利主题的网络信息资源库为目标,智能地在互联网上搜集符合这一专题的信息资源。搜索引擎结构图如图3所示。
图3 专利搜索引擎模块组成部分
采用基于内容的搜索技术,其主要实现方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。可以较好地解决了信息检索过程中的词汇不匹配问题以及信息过载问题,大大提高了信息检索的效率和质量。
专利信息采集模块由Spider、索引器、分析器、检索器、任务管理器五个部分组成。首先通过Spider程序,访问网站并搜集专利信息和专利影像档案信息。专利信息保存为xml格式的文件,然后由分析器对专利信息的xml文件进行分词,词法分析器根据专利信息的特点,分别进行英文、亚洲文字的分词处理。索引器将经过分词处理后的专利信息创建索引,并计算出token值。使用Appache+Tomcat发布系统的检索网站,当用户通过入口网站进入检索页面,并提交检索关键字,检索关键字经过分析器进行词法分析器进行分词处理;经过语法分析器生成语法解析树。检索关键字被传送到检索器,检索器从索引中检索出结果,并高亮显示后返回给用户。
该模块利用服务器端操作系统的任务计划功能,定时运行数据采集程序,初始设定采集周期为一个星期,用户可以根据需要对此进行修改。专利信息采集分为单个目标网站采集和私人用户信息采集两种方式。
(1)单个目标网站采集流程,该模块首先从公共主题词表P_KEY_PUB中逐条获取记录。针对某个网站对每条记录进行如下采集操作。他的采集步驟如下:
首先解析采集对象网站对应的xml文件,其次根据解析结果利用Http Client工具进行数据采集,再根据xml文件提供的格式解析数据,获取所需要的专利信息。最后依据黑名单对采集的信息进行筛选,将需要的数据存入公共临时专利数据库表P_TMP_PUB中。
(2)私人用户信息采集与单个目标网站采集流程类似。但是也有区别,主要区别如下:
一是所有私人用户的信息采集参数都先放在私有主题词表P_KEY_PRI中。私人用户可以添加、删除主题词。
二是所有私人用户采集的专利信息存放在私有专利数据库P_TMP_PRI表中。
三是信息采集的周期初始化为1天,比如每天晚上12点进行采集。
四是私人用户可以对采集到的专利信息记录进行删除、推荐。推荐的专利记录添加到公共临时专利表:P_TMP_PUB,由管理员进行审核。
专利信息采集模块功能主要实现关键词管理、黑名单管理和新采集专利管理三个功能。关键词管理主要为管理员提供管理采集关键词的功能,可以执行添加、删除和修改的操作。黑名单管理功能主要对被加入黑名单的专利进行处理,包括:入库、删除、快速检索等。
我们只有掌握了专利检索系统中专利信息采集模块的设计,才能更好地对这个模块进行实现。通过使用合适的网络爬虫技术和全文检索技术,我们就能更好的在网络上对专利信息进行爬取,使得爬取的专利信息更好的为专利查询者服务,达到设计系统的目的。
【参考文献】
[1]刘佳佳,董旻,方曙.国外专利分析工具的比较研究[J].现代图书情报技术,2007,(02).
[2]杨洋.基于多Agent系统的专利采集系统研究[D].北京工业大学,2010.
[3]刘晨.专利信息获取与分析系统关键技术研究[D].北京工业大学,2009.
【关键词】专利信息采集;网络爬虫;索引;分词处理
在当今社会,专利技术作为一种无形资产与社会财富,它和材料、能源等资源同等重要,在当今知识爆炸的社会中有着重要的作用。目前,社会上有许许多多的专利检索系统,功能各不相同,但专利信息采集模块是十分重要的一个模块,它从Internet上获取专利信息,让专利查询者可以更好及时的获取网络上最新的专利信息,对专利查询者的专利研究起到很好的作用。
根据专利检索与服务实际应用,我们可以将系统分为专利利用、竞争对手专利分析、专利信息采集、专利检索、专利的受理、系统管理6个功能模块,系统的结构图如图1所示。
图1 系统功能结构
专利受理模块是实现用户提交专利申请、回复以及相关信息的管理。竞争对手专利分析模块为用户提供一个对产品信息快速技术分析的工具,用于监视竞争对手技术动向;模仿创新,产生更富有竞争力的新产品和新工艺。专利利用模块主要为专利的使用者提供一个交流平台。专利检索模块实现面向专利信息的全文检索功能。系统管理模块主要包括系统初始化工作、用户权限管理、数据备份、回复、日志等功能。专利信息采集模块实现对互联网上最新专利信息的获取。
在专利检索与服务系统的六大模块中,专利信息采集模块是系统实现的难点也是一个重点,它在开发中应用到网络爬虫技术,它实际上是一个基于Web的程序,它从一个初始网页出发遍历互联网自动地采集网上信息。当其进入某个超文本页面时,它利用Html语言的标记结构来搜索信息和获取指向其他超文本的URL链接,通过一定的算法选择下一个要访问的站点继而转向另一个站点继续搜集信息,其处理流出如图2所示。
图2 专利信息采集处理流程图
网络爬虫的系统一般由控制器,解析器,资源库三部分组成。三部分协调工作,共同完成爬行搜索任务。控制器是网络爬虫的中央控制器,它主要是负责根据系统传过来的URL链接,分配一个线程,然后启动线程调用爬虫爬取网页的过程;解析器是负责网络爬虫的主要部分,其负责下载网页的功能,对网页的文本进行处理,分析数据功能;资源库主要是用来存储网页中下载下来的数据记录的容器,并提供生成索引的目标源。
系统中专利信息采集引擎采用主题型搜索引擎技术,即以构筑某一专利主题的网络信息资源库为目标,智能地在互联网上搜集符合这一专题的信息资源。搜索引擎结构图如图3所示。
图3 专利搜索引擎模块组成部分
采用基于内容的搜索技术,其主要实现方式就是在搜索引擎内部建立一个针对主题的词表,搜索引擎的爬行器根据其内设的词表对网上的信息进行索引。各个不同的系统词表建设的复杂度也大不相同。可以较好地解决了信息检索过程中的词汇不匹配问题以及信息过载问题,大大提高了信息检索的效率和质量。
专利信息采集模块由Spider、索引器、分析器、检索器、任务管理器五个部分组成。首先通过Spider程序,访问网站并搜集专利信息和专利影像档案信息。专利信息保存为xml格式的文件,然后由分析器对专利信息的xml文件进行分词,词法分析器根据专利信息的特点,分别进行英文、亚洲文字的分词处理。索引器将经过分词处理后的专利信息创建索引,并计算出token值。使用Appache+Tomcat发布系统的检索网站,当用户通过入口网站进入检索页面,并提交检索关键字,检索关键字经过分析器进行词法分析器进行分词处理;经过语法分析器生成语法解析树。检索关键字被传送到检索器,检索器从索引中检索出结果,并高亮显示后返回给用户。
该模块利用服务器端操作系统的任务计划功能,定时运行数据采集程序,初始设定采集周期为一个星期,用户可以根据需要对此进行修改。专利信息采集分为单个目标网站采集和私人用户信息采集两种方式。
(1)单个目标网站采集流程,该模块首先从公共主题词表P_KEY_PUB中逐条获取记录。针对某个网站对每条记录进行如下采集操作。他的采集步驟如下:
首先解析采集对象网站对应的xml文件,其次根据解析结果利用Http Client工具进行数据采集,再根据xml文件提供的格式解析数据,获取所需要的专利信息。最后依据黑名单对采集的信息进行筛选,将需要的数据存入公共临时专利数据库表P_TMP_PUB中。
(2)私人用户信息采集与单个目标网站采集流程类似。但是也有区别,主要区别如下:
一是所有私人用户的信息采集参数都先放在私有主题词表P_KEY_PRI中。私人用户可以添加、删除主题词。
二是所有私人用户采集的专利信息存放在私有专利数据库P_TMP_PRI表中。
三是信息采集的周期初始化为1天,比如每天晚上12点进行采集。
四是私人用户可以对采集到的专利信息记录进行删除、推荐。推荐的专利记录添加到公共临时专利表:P_TMP_PUB,由管理员进行审核。
专利信息采集模块功能主要实现关键词管理、黑名单管理和新采集专利管理三个功能。关键词管理主要为管理员提供管理采集关键词的功能,可以执行添加、删除和修改的操作。黑名单管理功能主要对被加入黑名单的专利进行处理,包括:入库、删除、快速检索等。
我们只有掌握了专利检索系统中专利信息采集模块的设计,才能更好地对这个模块进行实现。通过使用合适的网络爬虫技术和全文检索技术,我们就能更好的在网络上对专利信息进行爬取,使得爬取的专利信息更好的为专利查询者服务,达到设计系统的目的。
【参考文献】
[1]刘佳佳,董旻,方曙.国外专利分析工具的比较研究[J].现代图书情报技术,2007,(02).
[2]杨洋.基于多Agent系统的专利采集系统研究[D].北京工业大学,2010.
[3]刘晨.专利信息获取与分析系统关键技术研究[D].北京工业大学,2009.