定题Web搜索与挖掘的研究及系统实现

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:CT19850329
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
本文的研究内容是面向Web的定题数据搜索与挖掘的研究及系统设计。通过自主开发的分布式定题Web信息搜索和挖掘原型系统Infox Studio 2,重点讨论了当前流行的Web挖掘以及搜索引擎的核心技术,简述如下。定题网络爬虫技术:给出了基于非贪婪遗传算法的网络爬虫搜索策略,对各个算法进行数据分析和性能比较,并确定了它们的使用场景。Web数据的本地化和更新技术:借助于Berkeley DB,构建了高效的海量数据快速存储模型,并将爬虫抓取的网络数据保存到该存储中;针对Web资源的不同更新频率,采用了基于分类的信息更新技术。中文分词技术:考虑到中文数据的特点,采用了基于“词元”的分词算法。本文详细描述了原型系统Infox Studio 2的设计和实现细节,对不同网络环境下系统主要模块的性能进行了多方面的分析和比较。实验证明,该原型系统基本达到了设计要求。
其他文献
随着计算机技术的日新月异,一些新的仿生优化算法像蚁群算法得到了迅速发展和广泛应用。论文首先介绍了物流配送车辆优化调度问题等相关概念,接着详细介绍蚁群算法的产生、发
电子病历是实现数字化医院的核心,也是医疗信息系统发展的热点所在。每个县以上的医院都需要建立计算机化的以电子病历为核心的医院信息系统。因此,开发电子病历系统,将现在的中
近几年兴起的小世界网络理论是由物理、数学、行为科学和计算机科学等多学科交叉生成。小世界网络真实地反映出现实中系统的某些重要特性,成为研究现实网络的有效手段,具有广泛
长江河道的采砂船管理工作一直是我国沿江各水政管理单位的“老、大、难”问题。近年来,长江中下游河道乱采滥挖江砂问题越来越突出,采砂船违规作业、破坏堤坝等问题严重影响了
发布/订阅系统是一种提供给信息的生产者和消费者互动平台的分布式中间件系统,其中同构发布/订阅系统的一类应用是易物服务、物品交换等,该系统的目的是使尽可能多的用户参与
AdHoc网络组网灵活,移动便利。然而,其信道质量差,网络拓扑动态变化,在AdHoc网络中提供服务质量QoS(QualityOfService)保证面临许多挑战。QoS是AdHoc网络研究的热点问题。 对A
传统的纸笔考试主要以经典测验理论为理论基础,一次考试以固定的考题考核所有学生。其主要弊病在每个特定的学生都有许多试题不是适应其水平的,考分难于严格区分考生水平真实
医学图像配准是医学影像处理的重要研究课题之一。借助图像处理技术对多幅图像进行配准和融合,能够在一幅图像上表达更全面的信息,辅助临床诊断和治疗。虽然配准算法在医学领
对于社会网络(Social Network)的研究分析主要通过对其内部和各个社会角色以及相互关系的研究,了解社会网络是如何组成和发展的。可视化技术是研究社会网络的重要研究手段,它将
目前,解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤方法是一个较为重要的方面,也是当前解决垃圾邮件问题的主流技术之一,它主要包括基于规则的方法和基于