面向医疗主题的智能网络爬虫的研究与实现

来源 :湖南科技大学 | 被引量 : 0次 | 上传用户:yanxiant
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着网络信息技术的向前发展,尤其是互联网应用的不断增加和网页信息的指数级增长,要在互联网中准确、快速地找到自己所需要的信息,搜索引擎是一种必不可少的工具。但是,百度、Google等全文搜索引擎都不是专门为检索特定领域信息而设计的。当人们需要搜索特定领域的信息的时候,搜索结果中却出现了很多用户不需要的信息,不能满足一些特定用户的需求。针对这个问题,针对特定领域的主题搜索引擎应运而生。  主题搜索引擎的运转则很需要智能网络爬虫在后台高效地运行。现在主流主题爬虫,智能化程度不高,大多都是基于人工给定目标数据源进行抓取,或使用一些简单的半自动方法进行爬取,这些方法智能化程度低,还处于非常初级的阶段,远没有达到真正实际应用的要求。Map/Reduce是Google公司提出的用于大规模数据处理的软件架构,在其基础上写出来的应用程序可以在计算机集群上对海量的信息进行处理,而且Map/Reduce架构可扩展性强、容错性好,其得到了学术界和工业界的广泛认可。  随着我国医疗行业的发展以及医疗信息的大众化,网络中的医疗信息成为了人们关注的热点。如何识别并获取网络中的医疗信息,如何对这些医疗信息进行有效的加工处理成为了大家研究的焦点。本文通过Map/Reduce构建面向医疗主题的智能网络爬虫,这充分发挥了计算机集群强大的计算、处理能力,使得面向医疗主题的智能网络爬虫可以更加快速地抓取医疗主题的网页,这为面向医疗主题的搜索引擎提供了大量医疗主题相关的网页,且为后续的网页排序等研究提供了重要的数据保障。  本文的主要工作如下:  (1)提出了一种用于解决主题网页识别问题的基于链接分析的网页识别算法。该算法的主要思想是通过结合链接分析方法和主题URL知识库,基于统计和社会网络分析的思想来对网页进行识别,得出相关的网页识别模型。理论分析和实验结果表明了该算法的可行性和有效性。  (2)提出了基于LDA和语料库的网页信息去噪算法,该算法通过LDA模型检测出文档词语的各个主题类别后,然后利用主题语料库对这些词语进行过滤,去除主题不相关的词语,从而达到网页去噪的目的。通过对实验结果的评价和分析,表明了该算法的可行性和有效性。  (3)分析了基于Map/Reduce的面向医疗主题的智能网络爬虫的体系架构,并对相应的模块做了详细的介绍。  (4)通过Map/Reduce技术构建面向医疗主题的智能网络爬虫,这充分发挥了计算机集群强大的计算、处理能力,并通过实验证明了该网络爬虫的抓取效率优于传统单机式的网络爬虫。
其他文献
在科学计算可视化领域中,体绘制技术为人们提供了观察和分析数据的方法。体绘制能够将晦涩的数据可视化成形象的图形表示,并且可以通过对数据的交互操作,方便地分析数据内部
近年来计算机与信息技术飞速发展,伴随而来的是图像、视频等信息数据的增长,同时促进了计算机视觉与人工智能等领域的发展。视频目标跟踪技术作为计算机视觉领域的一大研究热
元数据,一般认为是“关于数据的数据”,它是用来说明数据的内容、品质、产生过程和背景、访问和获取方式及其他相关信息的数据。现今,元数据已经应用到各个领域中,并且对各个领域
近年来,多核处理器的应用已经越来越广泛,为了充分发挥多核处理器的效率,提高嵌入式操作系统微内核性能已成为一个重要的研究课题,而多核处理器的任务调度机制的好坏是影响嵌
随着信息爆炸时代的到来,资源的类型和人们获取信息的途径有了翻天覆地的变化。网络音乐电台,作为新型音乐传播媒介,以其简单的操作和及时的音乐更新,大大的改变了人们收听音
计算机视觉(Computer Vision)在军事、医疗、安防、视频监控及人机交互等领域有着越来越广泛的应用,导致计算机视觉技术越来越受到极大的重视。运动目标检测与跟踪是计算机视
对于一些特殊的绝缘材料和电气设备的绝缘系统来说,正弦波频率和电压幅值是绝缘老化加速的因子。在进行加速老化实验的过程中,为了在不改变绝缘失效机理的条件下尽快得出绝缘
随着网络规模和复杂性的不断增长,对网络测量提出了越来越高的要求,并极大地推动了网络测量技术的研究与发展。由于传统的网络测量方法受到的限制比较多(主要表现在传统的网络
随着社会的发展,科技的进步以及计算机网络的普及,利用人体生物特征来鉴别个人身份的生物识别技术成为安全验证的首选方式。同其它生物特征识别技术相比,人脸识别技术具有操作简
人脸识别是模式识别领域中的一个涉及面非常广的重要研究方向。由于人脸图像在采集时受环境、光照、表情和姿态等多种变化的影响,使得人脸识别研究极富挑战性。如何快速准确