WEB信息整合平台设计与实现

来源 :电子科技大学 | 被引量 : 2次 | 上传用户:asfaweawrv
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet技术的高速发展,网络信息资源的快速增长,网络已成为人们获取数据的重要来源。面对庞大的网络资源,搜索引擎为人们检索提供重要的技术手段。然而,传统的搜索引擎是基于单词的检索,存在一定的局限性,如搜索结果存在大量无关的网页、由于转载而造成信息内容雷同等。因此,极有必要对网络信息资源进行整合,以帮助人们从海量网络资源中,提炼出人们所关心的特定信息,并对数据重新整合与统一的展现。本文的主要研究工作就是整合WEB资源信息,使互联网用户能够快速准确地搜寻到自己需要的信息。首先,本文对WEB信息整合中的相关理论和技术研究,包括信息整合两种方法、三大组成模块以及四种关键技术等。并在设计过程中对各模块涉及知识做全面综述,包括本体概念、网络爬虫、信息抽取、资源描述框架等。其次,本文设计并实现了一种WEB信息整合平台原型系统,该系统以本体为指导。设计了系统总体结构框架模型,系统由4大模块组成:数据采集、信息抽取、存储模型、前台呈现。提出了基于本体和搜索引擎聚焦网络爬虫,基于本体的页面分析过滤算法,基于本体和DOM树路径的信息抽取规则,以及基于RDF的数据存储模型和基于B/S前台结果呈现等一系列设计方案。通过该信息整合平台,用户可以设置需要整合的领域信息,系统能够检索并整合出互联网中相关领域资源,并将结果以统一的、结构的、形象的展示给用户。该系统不需要对不同数据源分别建立包装器,而是作用域整个互联网之上,能够融合互联网中多种异构资源。最后,本文还对WEB信息整合平台做了综合测试,包括爬虫的效率与抓取量测试、数据抽取率测试等。测试证明系统能整合互联网中部分异质的数据源,但也存在一些不足。
其他文献
非酒精性脂肪性肝炎(NASH)是一种遗传—环境—代谢应激相关性疾病,它可以进展为肝纤维化、肝硬化甚至肝癌等终末期肝病的疾病。其发病机制至今尚未完全阐明,一般认为氧化应激
出资是股东对公司的基本义务,也是公司形成法人财产的基础,一旦公司章程中记载的股东出资承诺经公司登记机关登记,就必需按时、足额出资,出资义务的违反可能会直接导致股权的瑕疵
“渤海产业投资基金”正式成立于2006年,落户在天津市。“渤海产业投资基金”是由国务院批准设立的,其设立对于我国股权投资基金的发展起着重要的标志性作用,它标志着股权投资基
目的:通过观察齐刺电针配合局部取穴与传统电针法治疗脊髓损伤后尿潴留的疗效比较,以寻求更好的脊髓损伤后尿潴留的治疗方案。方法:将课题观察的52例脊髓损伤后尿潴留患者按随
EDA软件是现代集成电路开发的必备工具,并且大规模运用在设计过程中,而我国由于起步较晚,目前在先进的开发工具上完全使用外国软件,但是由于国外软件的价格高昂,大大增加了我
在金融危机和经济全球化背景下,企业发展的不确定因素不断增加,未来的发展趋势难以准确预测。我国对与国民经济密切相关的产业政策不断进行动态调整和完善,输变电设备制造产
当今无线电技术的迅猛发展,使得对无线电频谱资源的需求急速增长。空中电磁环境愈发复杂,各种无线电干扰时有发生。因此必须维护好空中电波的秩序,不断促进无线电频谱资源的合理
工业革命以来,占地球表面积71%的海洋越来越吸引了世界各国的目光,国际社会的不同主体纷纷将触角延伸到广袤无垠的蓝色海洋。中国的利益也在不断地向海洋拓展,中国的主要地缘
研究背景:颈静脉扩张症是临床少见病,近年来发病率增高,逐渐引起儿科医师的重视,而该病的病因、手术时机和最佳的手术方法仍存在诸多争议。随着我国对该病的研究逐渐加深,相关
目的:本研究旨在探讨青年健康志愿者时间-空间双重标记翻转恢复成像技术(Time-SLIP)在肾动脉成像中的可行性,得出最佳成像参数,并评价相同黑血翻转时间(BBTI)和扫描体位对肾动