信息抽取技术在情报监测中的应用

来源 :科技尚品 | 被引量 : 0次 | 上传用户:xmyhehe
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  摘 要:社会的发展和科技的进步,使得我国各项社会事业都不断繁荣,信息科技的发展,也为信息抽取技术的发展奠定了良好的基础。信息抽取技术是一种对语言进行处理的技术,在社会生活中的应用范围也不断扩大,本文主要信息抽取技术在情报监测领域内的应用进行详细的分析与研究,以便为信息抽取技术的发展提供借鉴。
  关键词:信息抽取技术;情报监测;应用
  0 引言
  进入新世纪以来,互联网技术在人们生活中的作用愈来愈大,信息科技的发展使人们对各种信息资源的获取变的更加方便和快捷,人们可以借助各种搜索引擎,找出自己所需的各种信息,然后浏览相关的网页得到信息。面对网络日益复杂的环境,人们都在对获取信息的方式不断进行创新和探索,而且,各种信息也日益变得更加透明、公开,很多信息都被放在网络中以便大家阅读、检验和交流,这就为人们信息的获取创造条件。在美英等军事比较发达的国家,网络情报的搜集是整个情报工作的重要环节。在国内,各种计算机网络的使用使我国情报工作的手段和环境都有了很大变化,传统情报思想已经和现代化国防的要求有很大脱离,老式搜集情报的方式也逐渐落后于时代潮流,这就需要位信息抽取技术在情报监测领域的应用提供了契机,下面对其进行详细的介绍。
  1 信息抽取技术概述
  信息抽取主要指从一段文本内抽取出指定的信息,并把这种信息的形式结构化,然后填进数据库内一般用户进行查询和使用,这一技术在20世纪60年代中期开始研究,主要是从自然语言的文本内获得各种结构化信息。国外已经有了很多信息抽取技术应用的领域,比如在外交、恐怖袭击、自然灾难等。信息抽取和信息检索有一定的联系,但也有很大的相关性。信息抽取是对信息检索的深化,信息检索可以查找出和查询条件有关的各种文本,而信息抽取则是从文本内抽取特定的信息,其主要的任务就是抽取指定信息然后填进预先的数据库内。信息抽取和自然语言理解也有很大的关系,使一种浅层的应用,自然语言理解是信息抽取中必须涉及的,是对多样化的内容进行处理和分析,而信息抽取的针对性则比较强,其分析档案一般是针对特定类型,所以不需要理解去全部信息的内容,只要对相关的内容进行分析即可。
  2 信息抽取的方法
  从自然语言理解到信息抽取技术,一直存在两种不同的主义斗争,也就是理性和经验主义,在信息抽取系统内,针对这两种不同的主义,对信息进行抽取的方法也有两种:第一,理性知识的工程方法,主要由专家专门对语料库进行整理和分析,进而人工对各种模板和规则进行制定,可以把规则方法为基础。第二,以经验为基础自动进行训练的方法,给出经过标注的文档组合,借助机器来学习对模板进行推导,以及使模板能够自动进行填充的规则,也可以借助统计学方法进行抽取,设计对自然语言进行处理的技术。和原来的方法有所不同,我们可以把经验和理性相结合,人工对模板和规则进行制定,也要自动对文档进行训练。
  3 信息抽取技术在情报监测中的应用
  3.1 设计的具体思想
  首先是针对各种外文信息的抽取,对情报监测这一特殊领域,我们要对各种国外的信息进行研究,对国外的信息进行抽取,需要翻译成汉语,然后按照一定形式提供给用户。接着要根据具体的领域进行信息抽取,比如国防的经费,可以从国外关于国防经费英文的文本内抽取特定事实的信息,以便对世界各国有关国防经费变化的情况进行监测。例如,可以从国防经费的预算和其他的报道内,找出相关军事研究和发展的费用,装备武器研究的费用,更新和购置武器的费用,军队具体开支的各种费用等。在这里,可以提出一个有效而快速的方法,具体的流程如下:首先使用相对成熟的信息检索,将所需英文的文档下载进本地,使之成为本地文档;接着借助信息抽取的工具抽取出英文的信息,将有用的信息充实进相关的数据库内;最后要和相关的翻译系统相连接,因为数据库内信息大都比较零散、简单,因此翻译的工作也就比较简单,提交给用户的就是各种结构化中文的信息。
  3.2 对文本进行预处理
  这是一种初使的工作,这一环节主要对词性进行标注。因为信息抽取的任务具有特殊性,抽取出的信息一般在某一领域内数量比较有限,因此,文本内和抽取的任务有关的信息可能只有很小的一部分。这就需要设计过滤器,其作用主要是对文本内的句子逐词进行扫描,然后按照语料库的设计对所需信息的单词进行判断,如果这一句内没有所需的单词,就将其删除,以便使计算机的资源得到节省,提高抽取的效率,最后会形成带有标注句子的序列。
  可以设置一些符号当做拆分符,这样就可以得到具体句子的序列。根据每个不同句子,对具体单词的词性进行标注,句子的序列标号在文本被可以借助SN=1、2、3进行标示。
  3.3 词法的分析
  按照词条的相关规则与专业的词库,对词条的句法、词法与语义的信息等进行标注。首先在专业的词库内进行搜索和匹配,如果没有匹配项,再去词条库进行搜索。在这里需要注意一点,对信息进行抽取时需要时特定领域内特定的信息,讲究准确性,所以并不是完全自然语言处理的过程,需要尽量应用相关领域的知识。如果专业的词库内有信息,就可以直接对其进行标注,不必根据单词词法匹配的规则进行再次匹配。
  3.4 对模式进行匹配
  在一些特定的领域内,知识库的完善对信息收取有很大帮助,可以建立以下知識库:第一,命名实体的规则,命名实体主要指真实存在的抽象或者具体的实体,比如地点、人和公司等,一般都有唯一标识的符号进行表示,这是文本内基本的元素。要按照领域内的知识建立命名实体的规则系统,在这里存储大量领域内或者和领域有关的实体。第二,概念的层次库。需要建立概念的层次库,以便使所得信息的结果变的更加精确。第三,共指关系的规则,通常,我我们所关心的关系和实践都在文本内不同的位置中散布,其中,涉及实体一般都很多不同的方式进表达,而且有很多和事实有关的信息在文本内隐藏。为了能够全部且准确的抽取出文本内的信息,信息抽取系统需要对文本内共指关系进行识别,并进行一些必要推理,然后进行合并,对相同的实体或者事件信息的片段进行描述。共指关系的规则内定义命名实体多种不同表达的方式,还对指代关系识别的方式有所规定,对指代的关系进行识别遵守邻近进行匹配原则。
  3.5 机器的翻译
  因为我们抽取的信息是英文的文本,因此最后所得数据库内也是英文的信息,这就就需要接入相关翻译的系统,然后得出我们所需的结果。
  4 结语
  综上所述,信息抽取技术在情报监测内的应用具有重要的意义,可以使抽取信息的速度得到加快,更加直观。快速的展现所需信息,提高总体的效率。随着社会的发展,其精度也在不断提高,层次不段深化,使用的范围也在不断扩大,因此,需要引起相关人员的重视,不断对其进行改进和完善,切实发挥出信息抽取技术在情报监测领域的价值,促进情报监测领域的发展。
  参考文献
  [1]李涛,李银胜,柴跃廷.一种产品情报的在线检索和智能分析方法与系统:CN,CN 101866340 A[P].2010.
  [2]刘剑兰,朱东华.信息抽取技术在情报监测中的应用[J].情报学报,2004,23(6):661-666.
  [3]冷伏海,白如江,祝清松.面向科技文献的混合语义信息抽取方法研究[J].图书情报工作,2013,57(11):112-119.
  [4]郑彦宁,邓擘.信息抽取技术在情报学中的应用分析[J].情报理论与实践,2008,31(5):769-772.
其他文献
摘 要:文章分析了DCS系统关键性技术,及技术性能要求,在此基础上,简明扼要地阐述了DCS系统软件和硬件系统的设计与实现。  关键词:DCS系统;软硬件功能;设计与实现  企业生产中,过程控制是以工业生产中的生产流程为对象,再与生产实际紧密结合共同完成具有专业性、实践性的一项劳动过程。随着计算机技术、网络通讯技术、多媒体技术和系统控制技术的发展,一种具有开放性可靠性特点的DCS控制系统技术越来越多
摘 要:信息时代发展为通信行业提供了机遇,通信是大众生活中不可或缺的重要元素,通信业的发展为大众生活提供了极大的便捷。但随着通信用量负荷的不断增加,通信光缆的故障也成为通信公司重点关注的项目。故此为了保证通信光缆线路的顺畅运行,应针对通信电缆线路进行维护以及故障分析,通过维护来降低故障发生的几率,以保障大众通信光缆使用权益。基于此,本文以通信光缆线路维护举措与故障问题为出发点,通过调查分析结合通信
Photoshop图形图像处理课程在电脑艺术设计课程设置中属于职业技能课,运用模块化教学能充分调动学生的积极性,本文根据学生不同专业方向以及岗位群的需求,把课程内容的分为3
摘 要:经济科技的迅猛发展,人们对水利水电自动化系统有了更高的要求。以往依赖于布线通讯和传输的自动化系统已经逐渐被无线通讯技术所取代。本文将以无线通讯技术的特点和具体分类为切入点,对其在水利水电自动化系统中的相关应用进行浅要分析。  关键词:无线通讯;技术;水利水电;自动化系统  就目前的水库建设情况而言,自动化系统已经得到广泛认可。我国绝大多数的大中型水库都有其自身的自动化系统。相对于有线传输和
摘 要:DCS控制系统是随着计算机技术、系统控制技术、网络通讯技术和多媒体技术不断兴起产生的新型应用技术,在生产应用中可以完成过程控制、过程管理的现代化设备。文章结合生产实际,对DCS控制系统的功能以及其组成进行相关的介绍和分析,并结合实际情况对DCS系统在胶粘纤维生产过程中的作用做了总结。供参考借鉴。  关键词:DCS控制系统;胶粘纤维;生产应用  目前,随着科技技术的发展,DCS自动化控制系统
摘 要:随着OTN关键技术的大量运用,这项技术未来必将成为主要的光传送网技术,依据它信号的稳定传输率及超长距离的传播,以及光学触控模组技术的有效结合等,未来OTN的组网能力将得到更好的发挥。在当前OTN广泛应用的背景下,应该有效地扩展OTN的相关技术,深度挖掘它的核心技术,以实现OTN的广泛运用。  关键词:OTN;关键技术;应用;发展趋势  随着经济发展的迅猛,网络已经成为了人们工作与生活的必需
摘 要:当前,渔网在生产过程中有时会出现网格断线、未接线、破损等质量问题。对于这些质量问题,目前主要采用人工肉眼识别来检测。采用肉眼检测的方法,会出现以下几种问题:(1)容易出现漏检、误检;(2)效率低下;(3)废品率较高。机器视觉系统是利用机器代替肉眼来进行测量和判断的系统。机器视觉系统的特点是高度自动化以及测量精度高。在一些人工视觉难以满足要求的场合,常用机器视觉系统来代替人工视觉。在渔网网格
摘 要:随着社会的发展,计算机已经在许多领域发挥着重要作用,硬件的运维管理是医院信息化快速发展一个突出的表现。在医院信息化发展过程中担负越来越重要的角色。而且计算机的普及程度越来越高,但是在计算机的日常使用过程中,经常会出现各种硬件问题,给计算机的使用和寿命带来了巨大的影响,对于身处计算机管理的工作人员而言,计算机硬件管理是一项庞大而烦琐的工程。本文对医院现有硬件设施情况进行考查,通过技术手段探讨
摘 要:随着现代化科学技术的不断发展,OTN技术被广泛应用于电力通信网运行领域,由此推进电力企业在电力信息传递过程中逐渐趋向于数字化、信息化的方向发展,且就此增强电力通信网灵活性、可靠性。本文在对OTN技术技术与其优势进行阐述的基础山,对其在电力通信网中的应用做出分析。  关键词:OTN技术;电力通信;应用分析  1 OTN技术概念及其优势  1.1 OTN技术概念  OTN技术,即光传送技术,该
1 特征特性:株高60厘米左右,株型直立,分枝少,茎紫褐色,复叶大,叶色绿,生长势强花冠蓝色,花橙黄色,花粉多,易天然结果,浆果大,有种子。块茎长椭圆形,皮色淡黄,肉色深黄,表皮