Web信息精确获取技术研究

被引量 : 0次 | 上传用户:aaronfly08
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着Internet应用的飞速发展,WWW已经发展成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但因Internet所固有的开放性、动态性与异构性,又使得用户很难准确快捷地从WWW上获取所需信息。如何快速、准确地从浩瀚的信息资源中寻找到所需信息已经成为困扰网络用户的一大难题。本文针对信息系统集成及整合的需要,系统地研究了网络信息精确获取所涉及的技术,并将这些技术有机地结合在一起用于一个网络信息精确获取系统的设计与实现。 Web信息获取是信息挖掘技术中一个重要技术,是指从Web上大量的信息中得到数据对象间的内在特征,并以此为依据进行有目的的信息获取的方法,它涉及到计算机网络、数据挖掘、文本处理、人工智能等多个领域。本文首先从体系结构和技术实现方面对网络信息搜索的理论和工具进行了全面的回顾,并总结了当前搜索工具所存在的主要问题及局限性,如检索方式不科学,索引方法不合理,结果显示单一,个性化能力差等;然后对Web信息获取技术的发展现状进行了综述,重点研究了Web信息精确获取所涉及的关键技术,包括搜索引擎技术、信息抽取技术和自动分类技术等,并提出了一个网络信息精确获取的解决方案。 本文将Web文本挖掘的思想引入WWW信息处理领域来解决Web信息精确获取的问题。针对目前在HTML文档中没有表达语义的模式信息,通过用户选定样本页面,预先定义模式,并且通过系统对样本页面和其中的样本记录的学习形成知识库,利用知识库抽取数据信息,形成训练文本集;在此基础上,信息获取系统从样本中提取目标信息的特征,然后根据目标特征进行有目的的搜寻,将搜寻到的信息提交给用户,以获得使用户满意的结果。 根据上述思想,本文设计了Web信息精确获取技术的一个原型系统NIAS,并给出了系统实现中的一些算法。
其他文献
随着我国煤炭、冶金矿山向大型化发展,以大型破碎站为关键设备的半连续开采工艺得到了广泛的应用,而大型破碎站的主机设备一直依赖于欧、美发达国家的产品,因此,开发高效、节能新
随着各产业国际化的推进,对人才的国际化素养需求也日趋提高,因此,高职教育走中外合作办学的国际化之路是必然趋势。然而我国的高职中外合作办学正处于一个由粗放型向质量型
<正>在胸外科手术麻醉中,单肺通气(one-lung ventilation,OLV)是一种很重要的通气方式。它既可防止术侧肺的血液及分泌物溢入健侧肺,保证呼吸道通畅,避免交叉感染,同时也利于
地佐辛是阿片受体混合激动-拮抗剂,对κ受体完全激动,对μ受体有部分激动、部分拮抗作用,不产生典型的μ受体依赖,可使胃肠平滑肌松弛,减少恶心呕吐的发生率,对δ受体几乎无
本文对电算化会计自动转账及其在教学过程中出现的各种问题进行了分析总结,、并针对这些问题引入"对比法"教学以提高教学质量、降低课堂教学错误率,使学生熟练掌握自动转账功能
在当今世界经济全球化、市场全球化浪潮风起云涌之际,一个企业能否创造并保持竞争优势,对于企业的生存和发展是至关重要的。企业的持续竞争力源自于比竞争对手以更低的成本、更
基于WEB的应用程序开发是数据库应用中的一个重要方面。随着我国计算机应用的发展,企业管理的日趋现代化、规范化,建立企业范围内的WEB应用已成为必然的发展趋势。本文通过一个
目的探讨肺结核合并糖尿病临床特点与疗效。方法选取我院2006~2009年收治的肺结核合并糖尿病与单纯性肺结核患者各50例,进行分析。结果肺结核合并糖尿病组与单纯性肺结核组病
血氧饱和度是衡量人体血液携带氧能力的重要参数,也是临床诊断和家庭保健中重要的生理指标。根据红外光谱法血氧饱和度测量原理,设计了一种血氧饱和度测量系统。系统以FPGA为