基于搜索引擎数据的疾病空间分布监测

来源 :武汉大学 | 被引量 : 2次 | 上传用户:dbbzy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网的迅猛发展使网络中累积的数据高速增长,这些网络数据中与空间位置有关的数据无处不在。在这个用户参与创造内容的Web2.0时代,用户自发地创造与地理空间有关的内容,其中包括了用户在互联网上的访问记录。搜索引擎的访问记录包括搜索关键词、搜索时间以及对应于地理位置的IP地址。这就使得搜索引擎数据成为了一个典型的地理空间大数据来源,它具备的开放性、泛在性、高时效性等特征有助于解决传统数据难以解决的问题。搜索引擎数据在疾病监测领域的应用是大数据应用的经典案例,谷歌流感趋势第一次提出就引起了广泛的关注,其后不断有学者跟进研究这一问题。过往的研究主要关注搜索引擎数据的时间特征,对网络搜索行为的空间分布特征的研究较少,搜索引擎数据的空间属性没有得到利用,本文对此进行了研究,研究内容包括:(1)研究了搜索引擎数据采集方法,以百度指数为例,介绍了使用Python实现爬虫的方法。该网站没有提供可直接获取数据的APT,数据不是通过静态的文本而是交互式的图表展现,并且通过拼图的方式对数字进行了加密,数据获取有一定难度。使用Web测试工具Selenium模拟用户的输入、选择和鼠标悬停,定位到指数所在位置后截取图片,使用图像识别技术得到关键词的搜索指数。(2)研究了数据预处理方法,包括关键词的选取方法和关键词搜索指数之间多重共线性问题的处理。结合相关文献和关键词挖掘工具确定关键词选取的大致范围,再通过相关性分析等过滤步骤选取与真实病例数高度相关的关键词,使用逐步回归和主成分分析法降低多重共线性,分析两种方法的适用范围。(3)对相关关键词搜索指数与真实发病数的关系随时间和空间变化的趋势建立模型,并使用该模型实时监测流感空间分布状况。已有研究指出网络搜索行为存在空间差异性特征,存在多个研究区域时,过去的研究通常对每个区域单独建模,常用的方法是基于普通最小二乘法的线性回归模型。考虑到空间单元与其周围单元信息的相似性,本研究结合距离衰减效应对多个研究区域同时建模,使用了普通最小二乘回归(0LS)、地理加权回归(GWR)以及时空地理加权回归(GTWR)三种方法并对它们的拟合效果和实际监测效果进行对比,发现顾及时间和空间非平稳性的GTWR模型效果最好。该方法可以作为传统疾病监测方法的补充,将GTWR模型与搜索引擎数据结合能识别流感高发地区,实时监测流感空间分布,为空间流行病学的研究提供预测模型和统计解释。
其他文献
[目的 /意义]分析国内互联网搜索数据和我国流感疫情的相关性,探讨利用搜索数据辅助流行病监测的应用可能,为相关搜索引擎和疾病防控中心提供参考。[方法 /过程]通过分析百度
<正>目前,VR技术(虚拟现实技术)已广泛应用于航空航天、影视制作、医学实习、建筑设计、房地产、军事训练、娱乐游戏等诸多领域,在教育领域,VR技术有着更为广泛的作用和影响
期刊
随着社会经济的发展和医疗服务模式的转变,为患者提供连续协调的健康服务、实现各医疗服务机构之间的无缝衔接,即连续医疗服务,成为一种必然趋势。出院计划以患者为中心,以患
楚庄王是春秋时期的一位贤明君主,经历不同史学家的记录,其形象逐渐发生变化,《左传》中他是"礼"的模范,《史记》中他则是"义"的楷模。其形象由"重礼"到"尚义"的演变,一方面
目的观察头抬高后仰位联合60°气管拔管对患者拔管期应激反应的影响。方法选择全麻下行大隐静脉高位结扎手术的患者90例,男33例,女57例,年龄1840岁,体重4575kg,ASAⅠ或Ⅱ级。
<正>为克服随意履职、盲目履职、情绪履职等不良现象,做到"全面、规范、科学、和谐"履职,我们江苏省盐城市东台工商局从2003年开始实施标准化管理,在职位设定、人员配备、岗
良好的审读反馈机制,是科技期刊提升质量水平、丰富科技学术内涵,更好地服务于科学研究、更顺利地走向国际的重要保障。科技期刊审读分为事前和事后审读两种。结合实际工作经
“镜像”这个话题在西方是非常的久远,从柏拉图开始就已经有了和镜像有关的的“模仿说”,后来许多的艺术家把镜子利用到艺术创作当中,像康坦梅西斯、帕而米江尼诺、达芬奇、
目的观察替莫唑胺用于恶性神经胶质瘤手术联合125I粒子植入术后辅助化学治疗的疗效及安全性评估。方法选取我院2013-07—2016-05确诊为人恶性神经胶质瘤的患者39例,应用替莫