【摘 要】
:
随着WWW技术的日益成熟和互联网应用的逐渐普及,互联网已经发展成为了一个巨大的分布式信息空间。从Web中获取信息已成为个人获取知识的主要方法和重要手段,也成为当前企业获
论文部分内容阅读
随着WWW技术的日益成熟和互联网应用的逐渐普及,互联网已经发展成为了一个巨大的分布式信息空间。从Web中获取信息已成为个人获取知识的主要方法和重要手段,也成为当前企业获取情报的重要途径。但是,面对浩如烟海的网络信息,传统的人工搜集和处理等方法都已难以胜任。而且由于Web的组织格式主要以HTML页面这种半结构化的形式为主,其本身具有无结构性、超链接的自由无序、以及内容的海量性、多样性和动态变化等特点。采用普通的搜索引擎,在某种程度上提高了检索的效率和速度,但针对特定领域信息的搜索,仍然存在着有效性(指如何滤除相关度较低的信息)和命中率(指如何降低漏掉的有用)太低的问题。本文根据现今应用最广泛的HTML网页信息的特点,在对现有信息搜集、预处理和自动分类等网络信息处理技术进行深入的分析与研究的基础上,针对目前信息搜集技术的不足,设计开发了一个基于汽车信息领域的网络信息监控分析系统,实现了通过互联网实时定向地自动捕捉多个门户网站以及专门网站关于汽车领域的“有用”信息的功能。本文重点研究了该系统中网络信息收集子系统、智能分析预归类子系统的设计与实现,这两个子系统成功地实现了网络信息的采集、预处理和自动分类等功能,是系统的核心部分。本文研究的重要创新点是在网络信息收集子系统的设计中引入了多线程非递归方式、并行结构技术,有效地提高了系统的速度和效率;在并行结构技术的实现中,应用了并行采集的交换模式,有效地解决了网页重抓、漏抓的问题;并在网页采集过程中采用了URL过滤技术,在网页分类过程中利用阀值方法过滤无用信息,较大地提高了信息的有效性。此外,网络信息监控分析系统经过某汽车信息咨询有限公司的多次测试,验证了其可行性和有效性,在实际应用中,该系统也取得了良好的效果,较好地满足了客户的业务需求。
其他文献
Peer-to-Peer网络(P2P)技术是目前热门的研究领域之一,它对传统网络的“以内容为中心”的服务模式产生很大冲击。P2P网络采用分布式结构,每个节点既是客户端又是服务器,这种
随着网络技术与嵌入式技术的迅速发展,将嵌入式系统连接进入Internet网络成为发展的必然,这样有利于嵌入式设备与信息网络彼此互连,一方面扩大了设备的可控范围,另一方面拓展
数据挖掘致力于从大量数据中寻找有用的知识,数据挖掘的强大功能,能帮助人们更透彻地理解数据,从数据中获取更深层次的信息,从而产生巨大的生产力,已经在电信、银行、保险、证券、
语音识别技术的应用前景是无限的。应用语音的自动理解和翻译,可以消除人类相互交往的语言障碍。随着Internet网的爆炸性扩张,电子商务的迅速发展,语音识别技术将为网上会议、商
在企业的信息交换中,文档是业务与它们的客户之间交互的主要来源,被用于创造收入、管理事务并传递知识,同时也是客户、合作者、供应商及其后端系统和业务流程之间的公共接口
在我国的出口行业中,技术性贸易壁垒(Technical barriers to trade,简称TBT)造成的贸易摩擦日益增多,给我国出口贸易造成巨大损失。究其原因主要是我国缺乏强有力的TBT监测预
本文研究在CG树模型下的负载调度算法和资源管理模型,以实现分布式集群系统的负载均衡和资源合理利用。通过研究现有的负载调度算法,本文提出了一种基于CG树模型的请求式动态
入侵检测作为一种积极主动的安全防护技术,提供了对内部攻击、外部攻击和误操作的实时保护,在网络系统受到危害之前拦截和响应入侵。现有入侵检测系统不但误警率高,且实时性
基因组测序工作快速发展,基因组结构注释成为破译基因组秘密的首要问题。纯粹基于实验方法的基因结构注释代价较高且难以适应基因组数据的迅速增长,因此,需要建立基因组结构
随着互联网技术的发展和接入速度的提高,用户对网络的期望和要求不再满足于单一的静态媒体,流媒体应用成为了用户新的需求。但流媒体对带宽资源要求高且服务时间长,在传统的C