油气资源网络信息采集与分析方法研究

来源 :长江大学 | 被引量 : 0次 | 上传用户:asaaaas
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络上海量油气资源信息的增长,如何从纷繁复杂的海量信息中精准的提取出满足用户需求的信息显得尤为重要。采集、提取网络上各大石油类门户网站的油气资源信息,并对这些信息进行存储和分析,最后按用户的需求兴趣以个性化定制的方式及时高效的呈现给用户,是油气行业发展的需要。针对油气资源网络信息采集过程中,用户对采集的信息具有深度聚焦、信息完备的要求,本文在以下三方面分别进行了研究:1)本文从时间精确性、内容抽取精准性与获取信息完备性三个方面分别进行分析,通过对开源爬虫Heritrix进行扩展性研究,并结合jsoup和Lucene,提出了一套关于行业动态信息采集中个性化定制的策略和方法;2)为了能按用户的需求,聚焦提供用户感兴趣的信息,采取构建完善的油气资源信息专业词库,辅助分词提高用户检索信息聚焦度的策略;3)为了构建更新油气资源信息专业词库,需要能够发现识别行业信息中不断涌现的领域新词,本文就此展开了基于改进的Prefixspan算法进行中文文本新词提取的方法研究。尝试将序列模式挖掘相关算法Prefixspan应用于中文文本的新词提取中,针对Prefixspan算法挖掘出的序列模式不连续、挖掘出的序列模式项相互间存在包含关系等问题,对算法进行改进,采用语义特征与统计相结合的方法,实现了从中文语料中有效提取新词。本文将以上研究成果应用到了国土资源部的油气网络信息动态采集系统建设项目中,应用结果表明:1)本文改进的中文文本新词提取方法对于专业领域新词的识别具有较高的准确性;2)本文提出的行业动态信息采集策略与分析方法能够较好满足用户对个性化定制行业动态信息采集的要求,既能保证采集网站上指定时间区间内的兴趣信息能够全部抓取,又能按用户的需求,聚焦提供用户感兴趣的信息,提高了行业动态信息采集系统的效能;节省了行业人员获取信息的时间。本文提出的行业动态信息采集策略和分析方法具有普适性,能够用于其它行业网络信息动态采集系统的构建。
其他文献
酰胺键的合成是最重要的有机化学反应之一。在蛋白质和许多生物大分子中就可以看出酰胺结构的普遍性。胺类化合物直接氧化成内酰胺类化合物是一种引人关注的转化,例如二氢异
近年来,磁电多铁性材料因其丰富的物理内涵以及诱人的应用前景同时受到学术界及产业界的极大关注,探索新型多铁性材料成为研究的热点。本论文选取具有钙铁石结构的Ca2FeAlO5
江陵凹陷油气勘探主要集中在中北部,随着勘探程度的提高,勘探难度日趋加大,需寻找新领域作为勘探接替。近期,江陵凹陷南部钻探取得成功,说明南部斜坡带具备较好的勘探潜力。
随着计算机技术的迅速发展,计算机系统正变得愈加庞大和复杂,很多实际系统被赋予随机行为特征,我们需要使用模型检验的方法对随机系统进行自动的形式化验证,并定量分析其属性需求,这就是概率模型检验。概率模型检验是经典模型检验理论的推广和泛化,被广泛用于验证具有随机行为的计算机系统的定性和定量属性。在概率模型检验中分析的计算机系统包括自适应软件系统,这些系统在其生命周期内是动态变化的,为了在运行时验证这类系
宁乡花猪又名宁乡猪、宁乡土花猪等,是湖南宁乡县的特色猪种,具有重要的开发价值。本文对其加工成的传统风干香肠制品的品质特性以及发酵剂应用对这些品质的影响进行研究,主
本文以胡萝卜和我国山区常见野菜马齿苋为原料,酿造胡萝卜马齿苋复合型蔬菜酒。在单因素试验的基础上,以酒精度为响应值,在恒温24℃条件下,运用DDC试验设计建立数学模型,进行
由于石油资源逐渐减少、温室效应以及雾霾天气等问题的日渐恶化,世界各国的汽车产业逐渐将重心转向对新能源汽车的研究,纯电动以及氢能源等新能源汽车已经成为未来汽车产业的重点发展方向。以轮毂电机为驱动单元的四轮独立驱动电动汽车的动力直接来源于安装在车轮内的电机,舍弃了变速器、差动器、传动系等传统汽车必需的部件,可以节省更大的空间用于拓展乘坐空间或者布置更多的电池以增加电动汽车的续航里程。四轮独立驱动由于其
本文是一篇英译汉翻译项目报告。翻译原文选自剑桥大学语言哲学与语言学教授卡西亚·亚希乔特的学术专著《默认语义学:交际行为组构理论的基础》一书的第7-8章。在第7章中,亚
在自然科学中,许多物理现象都可以用数学模型来描述.随着研究问题复杂性的不断提高,导致数学模型的维数也在不断增加,因而给工程人员的设计和仿真模拟带来了巨大的挑战.在这
本论文主要讨论了氧缺失对充满型四方钨青铜铌酸盐陶瓷Sr5SmTi3Nb7O30和Sr4Sm2Ti4Nb6O30的结构、介电与铁电性能的影响。近年来,对于四方钨青铜陶瓷结构与性能的研究热度不减