面向专题应用的开源情报挖掘系统研究与应用

被引量 : 12次 | 上传用户:yuyu198995
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
情报是对已有信息进行分析、加工之后,得到有用信息的过程,情报的获取历来在人类活动中占用重要地位。信息技术的高速发展给情报工作带来了新的机遇和挑战,从根本上改变了情报的获取途径和研究方法,开源情报已经成为了各组织获取情报的主要方式。本文介绍了在开源情报挖掘过程中用到的相关技术和工具,包括网络爬虫技术、文本处理技术和数据库技术,这些技术都是目前大数据领域研究的热点,将这些技术用于开源情报的分析处理中,不仅仅是对已有工具的简单应用,更能促进相关领域的发展。在文本数据的挖掘中,基于传统向量空间模型的方法由于没能很好的利用文本语义信息,在某些场景下表现出其不足之处,本文研究了将主题模型用于文本特征表示,并通过实验对比和分析表明了该方法在文本特征降维和文本聚类中效果更好。情报要素是情报的核心内容,蕴含了情报中大部分信息,在情报分析过程中非常重要,本文研究了两种用于情报要素提取的方法,并对比分析了两种方法各自的优缺点,提出了一些改进策略,取得了良好的效果。情报文本的聚类则是另一个重要的主题,目的是将描述相同主题的情报归入同一类别,不同的情报归入不同类别,由于开源情报主要来源是互联网,因此有必要对开源情报进行在线聚类,本文对Single-Pass进行了简单改进,实验表明效果有一定提升。本文最后通过实际应用,展示了开源情报在军事专题上的应用,通过实际编程完成了一个系统原型,并介绍了其中关键的几个部分实现过程,包括网络爬虫的编写和处理各类不同网页的方法,并介绍了数据库的设计,最后展示了系统对情报分析之后得到的一些结果。通过上述工作,本文研究和探索了开源情报在专题需求中的应用,并且表明开源情报在实际使用中具有重要的应用价值。
其他文献
近年来我国高端体育旅游的迅速发展,不仅改变了我国体育旅游产业的结构,壮大了我国体育产业的规模和实力,同时也对我国的经济、社会和文化等方面产生了非常深刻的影响。因此,
针对网络安全数据的多源异构特点,将语义网技术引入到基于Agent的数据采集模型中,设计了一种分布式采集、集中式管理的网络安全数据采集模型.该模型基于语义Agent对多源异构
新课改以来,高中历史教材变“一纲一本”为“一纲多本”,通过国家审核的有人教版、大象版、人民版和岳麓版,这四大教材对课程标准的把握、理解以及教材编写的切入点各有千秋
自20世纪90年代以来,绿色营销成为世界各国现代企业营销新趋势,也成为支撑企业可持续发展的重要理念。随着世界绿色观念的普及,我国很多企业也将绿色营销融入到企业发展的血
目的探讨术前DTI检查及脑白质纤维束重建对设计脑深部胶质瘤手术入路的临床意义。方法随机选取脑深部胶质瘤病人60例,30例术前仅行MRI检查作为对照组,根据易达及避开功能区的
带状疱疹是一种皮肤上出现成簇水疱、呈带状分布、痛如火燎的病毒感染性皮肤病。该病是水痘一带状疱疹病毒所致,此病毒有亲神经和皮肤的特性,如急性炎症期治疗不及时,会留下神经
本研究旨在综观运用符号学原理,并结合具体的案例对现代消费社会中电视广告的某些特性进行剖析。文章首先介绍了索绪尔符号学、皮尔士符号学、罗兰·巴特尔神话学,以及鲍德里
预测控制是一类源于工业生产过程控制的优化控制算法,该算法具有对系统建模精度要求低、鲁棒性强、在线滚动优化以及对系统控制目标及约束综合处理灵活等诸多优势。三相逆变器
本文利用常用的贸易竞争指数,RCA指数,市场占有率,质量与附加值等指标对我国的箱包产品国际竞争力进行了分析。得出结论,我国的箱包行业具有较强的国际竞争力,但产品在高附加