基于文档检索和语义关系识别的石油领域本体自动化构建

来源 :中国石油大学(华东) | 被引量 : 0次 | 上传用户:linlijun002
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
石油领域的油气开采等行业随着计算机相关领域技术的飞速发展,正在向数字化、智能化靠拢,智能生产也在逐渐为人们所熟知,实现智能生产面临着巨大的挑战,其中石油领域庞大知识群的表示方法的研究困难尤为突出。最经典、应用最广泛的知识表示方法就是本体,通过从现有信息源中获取相应的文本文件进行本体学习,以手工方式或者半自动的方式构建相关领域的本体。石油领域本体的构建目前普遍存在开发系统相互独立、数据编码规则不统一、各种系统软件重复开发等问题。针对以上问题,本文提出一种基于文档检索和语义关系识别的石油领域本体自动化构建方法,主要分为以下几个内容:石油领域本体构建的首要任务是领域文档的检索,本文通过分析传统的网络爬虫方法的优缺点,采用聚焦网络爬虫与增量式网络爬虫相结合的方法进行网页的抓取,引入抓取队列,有效避免了重复;其次,在文档检索的基础上构建石油领域语料库,进行概念抽取,通过分析现有的概念抽取方法,最终提出了利用统计学方法中TF-IDF与信息熵结合的方法进行概念抽取,在不同文档数量下对三种方法进行了对比试验,实验证明本文中提出的混合的方法在抽取准确性上得到了有效的提高;然后对抽取到的石油领域内的相关概念进行语义关系识别,主要从分类关系和非分类关系两方面进行识别,根据概念抽取结果得到相似度矩阵,并以层次聚类的方法识别概念间的分类关系,通过计算概念的全局相似度确定父概念与子概念,以关联规则的方法获取概念间的支持度与置信度,通过引入兴趣度的计算筛选得到强关联规则,从而获取概念间的非分类关系,最终以互信息确定关系之间的连接动词;最后利用抽取的概念与概念间的关系进行本体的自动化构建,分析现有本体学习工具构建本文的本体学习系统,利用概率本体模型与数据驱动方法实现中文本体的自动导出,本文主要使用OWL语言,通过将导出的OWL文件导入到protégé平台上,经过进一步的反馈修正,最终实现本体的可视化表示。
其他文献
力拓加铝公司所属的法国新布里萨克(New-Brisach)轧制厂供应制造标志(Peugeot)308轿车盖板所需的铝合金薄板。该公司计划生产这种轿车350000辆,为生产铝合金盖板投资了US$716M对原
目的对不同程度冠状动脉狭窄采用螺旋CT进行诊断的临床价值进行探讨。方法选取松原市中心医院2010-05—2013-05收治的59例疑似冠心脏病患者作为研究对象,所有患者均应用64层
本文查阅了近年来相关的文献和资料,对挥发油提取的主要方法:水蒸气蒸馏法,压榨法,溶剂回流法,微波提取法,超临界二氧化碳提取法,超声波提取法,酶提取法,吸收法等进行了分析整理,为挥发
在工业生产中,给排水管道关系到整个工厂日常生产用水的正常运输。工业工程项目中的给排水管道布置及选材,既要满足国家、地方等的设计规范;也要符合环保、消防、节能等的政
十八世纪下半叶,欧洲的音乐正在发生改变。才华横溢的莫扎特以多样的写作体裁和大规模数量的音乐作品成为古典主义时期的代表人物。他的音乐风格很难用统一的词汇来形容,他的任意一段音乐,不论在旋律节奏或是调性上都到达了无法改进的境界。他的音乐是黑暗中光明的产物,他身处黑暗,却将作品与光明的一面紧紧相连,表现出内心最向往的自由。他用平易近人的方式书写朗朗上口的作品,简洁轻灵的旋律带出深刻的寓意,清晰明朗的轮廓
随着我国经济、社会的快速发展,人们越来越重视对卫生健康方面的投资。担负健康保障使命的医院必然成为健康投资的重要方面,也必然需要通过不断更新换代改扩建的方式来满足人
市场经济的飞速发展在证明我国经济不断进步的同时,也将我国企业间的市场竞争推入到“白热化”阶段,在这一环境下,通过赊销交易的形式扩大企业的客户群体数量、增大企业销售
选取22个品种的山茶花花瓣制成试样,采用激光扫描显微镜在不同放大倍数下分别观察山茶花表面的微观形貌,发现表面由若干个规则的微米级多边形突起结构及凹槽构成。接触角测量
目的探讨部队疗养院综合康复疗养措施对飞行人员高血压前期的干预效果。方法对5批次常规入院疗养飞行人员采取整群随机抽样法在入院疗养第i天、第15天、第28天进行血压测量和
板书设计在教学中起着必不可少的作用.但随着时代的发展,教师对板书设计却越来越淡化.基于此,我将对板书设计作一个粗略的概述,希望能重新引起广大教师的重视.