论文部分内容阅读
互联网的迅猛发展使网络中累积的数据高速增长,这些网络数据中与空间位置有关的数据无处不在。在这个用户参与创造内容的Web2.0时代,用户自发地创造与地理空间有关的内容,其中包括了用户在互联网上的访问记录。搜索引擎的访问记录包括搜索关键词、搜索时间以及对应于地理位置的IP地址。这就使得搜索引擎数据成为了一个典型的地理空间大数据来源,它具备的开放性、泛在性、高时效性等特征有助于解决传统数据难以解决的问题。搜索引擎数据在疾病监测领域的应用是大数据应用的经典案例,谷歌流感趋势第一次提出就引起了广泛的关注,其后不断有学者跟进研究这一问题。过往的研究主要关注搜索引擎数据的时间特征,对网络搜索行为的空间分布特征的研究较少,搜索引擎数据的空间属性没有得到利用,本文对此进行了研究,研究内容包括:(1)研究了搜索引擎数据采集方法,以百度指数为例,介绍了使用Python实现爬虫的方法。该网站没有提供可直接获取数据的APT,数据不是通过静态的文本而是交互式的图表展现,并且通过拼图的方式对数字进行了加密,数据获取有一定难度。使用Web测试工具Selenium模拟用户的输入、选择和鼠标悬停,定位到指数所在位置后截取图片,使用图像识别技术得到关键词的搜索指数。(2)研究了数据预处理方法,包括关键词的选取方法和关键词搜索指数之间多重共线性问题的处理。结合相关文献和关键词挖掘工具确定关键词选取的大致范围,再通过相关性分析等过滤步骤选取与真实病例数高度相关的关键词,使用逐步回归和主成分分析法降低多重共线性,分析两种方法的适用范围。(3)对相关关键词搜索指数与真实发病数的关系随时间和空间变化的趋势建立模型,并使用该模型实时监测流感空间分布状况。已有研究指出网络搜索行为存在空间差异性特征,存在多个研究区域时,过去的研究通常对每个区域单独建模,常用的方法是基于普通最小二乘法的线性回归模型。考虑到空间单元与其周围单元信息的相似性,本研究结合距离衰减效应对多个研究区域同时建模,使用了普通最小二乘回归(0LS)、地理加权回归(GWR)以及时空地理加权回归(GTWR)三种方法并对它们的拟合效果和实际监测效果进行对比,发现顾及时间和空间非平稳性的GTWR模型效果最好。该方法可以作为传统疾病监测方法的补充,将GTWR模型与搜索引擎数据结合能识别流感高发地区,实时监测流感空间分布,为空间流行病学的研究提供预测模型和统计解释。