具有反爬虫机制的生态科考数据系统的设计与实现

来源 :青海师范大学 | 被引量 : 0次 | 上传用户:case_sheng
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
生态数据有利于政府和相关学者揭示和预测生态环境变化,而当地生态部门与生态科考的数据具有数据分散和共享性差的特点,导致搜寻数据的时间成本较高。随着数据不断增多,数据的维护和管理工作也变得困难,部分数据的丢失问题也时常发生。网络爬虫技术不断的发展威胁到系统的稳定性和数据的安全性,它可以低成本且大规模的爬取互联网中的数据,给数据的安全问题带来了不确定性。目前,网络爬虫在互联网中的流量达到了历史最高水平,约占总流量的37.2%。生态科考数据系统因此基于有效机制限制和拦截网络爬虫成为系统需要考虑的重要问题。本文的主要工作有:(1)提出基于微服务架构的生态科考数据系统,通过与当地有关部门合作,收集、管理、共享生态数据,构建以在线共享、离线共享为辅的数据共享服务模式,最大程度的共享数据,使数据的有效价值得以发挥。(2)针对当前传统反爬虫机制易被破解而失效的弊端,研究实现基于浏览器指纹技术的爬虫识别方式,充分检测用户Web浏览器所处的环境变化。(3)模拟爬虫访问生态科考数据系统,收集请求信息和行为信息并抽取爬虫特征,提出和构建基于朴素贝叶斯分类模型的爬虫识别模型。还通过随机森林算法筛选爬虫的重要性特征,提升朴素贝叶斯分类模型识别爬虫的能力。随着系统访问量的不断增多而收集更多的特征数据可对分类模型进行训练优化。(4)由于对爬虫的识别精度并不能达到百分之百的原因,有些爬虫依然未被识别。因此研究和实现了针对汉字和数字的反爬虫处理,避免数据描述信息页面展示的关键信息被爬虫轻易的获得。(5)通过基于浏览器指纹等传统反爬虫机制与基于朴素贝叶斯分类的爬虫识别模型组建混合反爬虫机制应用在生态科考数据系统中,提高了系统应对爬虫和数据的安全性的能力。
其他文献
数据预测在诸多方面都有需求,但是实际使用时难度较大。当前各行业使用的数据预测方法层出不穷、各个算法的可适用范围也不相同,这给程序设计人员在使用的时候造成了较大的困难。通常需要专业的知识才可以进行数据预测的模型设计,同时还需要具备一些应用型程序设计知识,才能较成功的呈现出算法的结果。为了解决这些问题,本文将图形化编程的思想应用于基于机器学习的数据预测中,从理论和实践两方面论述如何对基于机器学习的数据
作文自动纠错任务的主要目标是利用计算机手段自动检测并纠正作文中存在的错误。国外作文自动纠错研究开展较早,已经取得了较多的研究成果,也有成功的商业应用。作文自动纠错一直是汉语智能考试的重要研究内容,但是由于问题的复杂性,汉语作文纠错问题至今没有得到很好的解决。通过本研究的开展,不仅能够满足汉语学习者的需求、减轻汉语教师的工作强度,而且对汉语考试自动化有较大的推动作用。本研究成果还能直接应用到自然语言
受限于传输带宽和硬件设备等实际条件的影响,最终在终端显示设备上呈现的图像分辨率无法满足人们的视觉需求,尤其是对于要求高清晰度高细节的医疗图像和卫星遥感领域。近年来,随着人工智能和大数据技术的高速发展,深度学习已被广泛用于图像超分辨率重构中。由于图像超分辨存在一对多的不可逆的病态问题,其本质皆在从一张或者多张低分辨率图像恢复具有丰富细节的高分辨率图像。然而当前大多数算法仅仅简单的堆叠卷积层,导致模型
人机对话系统可以使人们以自然语言同机器进行交互。作为任务型对话系统的重要组成部分,对话状态追踪是系统理解用户意图,做出对话策略的基础,其更新正确与否影响整个对话系统的性能。因此,为实现高质量的人机对话系统,对话状态追踪的研究具有重要意义。随着深度学习技术的发展,对话状态追踪研究进步显著,但仍面临以下问题:模型依赖本体进行状态追踪,但本体难以针对槽位预定义所有槽值;模型对未知槽值识别困难。本文针对以
随着大数据时代的到来,电子商务互联网公司每日会产生高达PB乃至EB的海量数据。因此,运用海量数据指导企业运营和加速产品升级、争夺市场份额,也成为了未来电子商务企业的共识。而传统数据仓库只能对关系型数据库中的GB级别的结构化数据进行简单处理,无法处理PB乃至EB级别的半结构化数据与非结构化数据。为了解决传统数据仓库面对大数据时出现的问题,本文结合当前主流的大数据技术开发了电商大数据分析系统。通过电商
随着全球信息的爆炸式增长,如何从大量的信息中获取有效信息已经变得越来越重要。在互联网高速发展的时代,Facebook、Amazon、微博、微信和抖音短视频等互联网平台的用户在不断增长,大量的用户社交和购物活动会造成信息的过载问题。个性化推荐作为信息过滤的重要手段,是解决信息过载的最有效方法之一。协同过滤算法是目前比较成熟的个性化推荐技术,其主要思想是基于用户之间或项目之间的相似性来进行推荐。然而,
随着科学水平的不断提升,多学科交叉汇聚与多技术跨界融合成为常态。重大技术难题的攻克和理论创新需要多个领域的学者共同合作完成。在浩如烟海的学术信息中如何快速匹配出与自身研究兴趣相近、科研水平相当的合作者成为了学者合作的关键问题。然而,在学术领域学者个人属性信息具有多样性、动态性、学术网络具有稀疏性等问题,致使传统的推荐算法已无法满足学术合作的个性化推荐。因此,本文使用社团划分技术和网络表示学习算法解
随着智能手机、平板电脑以及其它触屏设备的广泛使用,在多点触控设备上进行文本输入变得很常见。在触控屏上现有的输入方式是通过虚拟键盘进行的。在物理键盘上通过触摸F键和J键的凸起,普通人可以进行高效的盲打输入,盲人也可以有效地使用键盘输入。但通过触摸屏上的软键盘盲打输入却无法实现盲打输入,相对于在物理键盘上普通人的输入效率就会大大降低,对盲人来说输入操作就会变得更加困难。本文在先前关于多点触控设备上适用
图像分割技术是由图像处理到图像分析的关键步骤,也是计算机视觉研究领域中的经典难题。其中,GrabCut作为一种基于图论模型的马尔科夫随机场能量最小化图像分割算法,因其只需少量交互就能得到较好的分割结果而在彩色图像分割领域中占有重要地位。然而,GrabCut仅通过像素颜色值的差别建立模型,对噪声干扰敏感,且交互式的分割方法需要人工参与,无法广泛应用于各个领域。因此,本文的工作将围绕如何改进以上问题展
目前,互联网技术飞速发展,高校校园网的建设也紧跟时代发展的脚步。然而,网络的快速发展也带来了各种安全问题,如何准确快速识别出网络流量中的异常流量成为网络流量监测与分析研究方向的重点。校园网用户数量的不断增加,校园网网络流量爆炸式地增长,对校园网络流量的监测与分析难度也大大提升,现有的校园网网络流量监测系统难以应对日益复杂的各种流量攻击方式。本文根据新时代校园网网络流量监测的需求,设计出一套集校园网