中国互联网企业空间分布的数据挖掘—一种大数据分析模式

被引量 : 0次 | 上传用户:yueyemingchan
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息化社会,数据作为一种资源已然受到人们越来越多的关注。随着互联网技术的迅猛发展以及数据库的广泛应用,人类社会已经产生了海量的数据资源,并且仍在继续扩张。如何从海量的数据中挖掘出有用的知识是摆在人们面前的难题,因此数据挖掘便应运而生。本文在详述了数据挖掘的基础概念后,对拟解决的问题,按照数据挖掘的整个流程,通过采取一定的方法,对与互联网企业相关的各种字段数据进行挖掘,包括企业本身以及与企业相关的领导人等数据,从多方位角度来研究互联网企业,并对挖掘结果进行了一定的分析,最后文章开发了一个基于GIS的数据挖掘系统。文章的重点在于对互联网企业数据的获取以及对数据的挖掘。数据的获取分为自动获取和非自动获取两种方式,其中互联网企业的部分字段属性数据是通过自动的方式,也就是爬虫程序获取的。数据按照所要研究的问题主要分为两大类,针对互联网企业的宏观分布情况文章选用以网站建设为主要业务的互联网企业,针对属性特征的研究和互联网企业影响下城市网络结构的研究选用深圳证券交易所上市的互联网企业。其中,属性特征的研究主要是针对互联网企业各个字段所进行的,包括对董事长的年龄、性别、学历以及企业上市时间等属性特征分布情况的研究,所利用的方法是经典的关联规则模型以及传统的统计方法,而空间数据的挖掘则是基于互联网企业的分布城市所进行的,利用的模型是“连锁的世界城市网络”(IWCN)模型。最后,文章利用C#与ARCGIS Engine10.0相结合的方法,开发了一个关于互联网企业的基于GIS的数据挖掘系统,对互联网企业的相关数据进行在线获取,并实现地图的查看、图表显示、制图等功能。通过对互联网企业数据进行挖掘,文章得出以下结论:第一,互联网企业的空间分布整体呈现核心一边缘状分布,主要存在4个聚集区,分别为:珠江三角洲、长江三角洲、京津冀地带和福建厦门一带。第二,在互联网企业属性特征的研究方面,企业上市时间为7-10年、领导人年龄在48-55.5岁之间、学历为硕士这3者联系比较紧密。企业上市所需的时间从0年到19年先递增后递减,领导入学历中硕士最多,领导人年龄基本在40-49岁和50-59岁之间,且比例达到相当,男性领导人占据主要位置。第三,在城市网络结构研究中,对于互联网技术型企业和互联网+型企业,在城市连通度方面,都是北京最高,在城市连接方面,网络基本呈现“菱形”状态,最大的不同是互联网+企业“菱形”结构更加饱满,可以推测中西部地区着重使用互联网技术来改善传统商业模式。第四,文章针对互联网企业开发了一个基于GIS的数据挖掘系统,系统主要通过爬虫来获取互联网企业的相关属性数据,如企业董事长的年龄、学历、性别、籍贯等,并对数据能够进行地图查询、各类图表的显示、制图等功能。
其他文献
上海"11.15"特别重大火灾事故夺去58条人命,受伤70余人。悲剧警醒我们必须要时刻绷紧消防安全这根弦,要深刻认识这次火灾的问题,最重要的是,在今后的消防工作中要吸取教训,将消
随着世界豪华旅游市场对中国的关注,乡村精品酒店开始在我国慢慢萌芽发展。与传统酒店不同的是,乡村精品酒店注重以客户之间相互邀请为主要形式的营销思路和营销方法,并且具
阅读是教育的核心,课外阅读是落实课程标准,丰富、发展学生语言能力重要的语文实践形式,课外阅读的实效性直接影响着学生的语文素养。然而,种种迹象表明当今小学生的实际课外
<正>由于中小企业在经济增长过程中具有重要作用,所以中小企业融资问题,近来得到国际学术界的关注。对于中小企业的定义,各国有所不同,不过在经济学研究领域,将中小企业统一
由于地缘条件、民族传统习惯等因素的影响,在云南中缅边境地区形成大量非法跨国婚姻,不仅削弱了中国法律在边境地区的权威,给边境地区的安全与稳定带来隐患,而且损害妇女儿童
本文通过广泛收集第一手文献资料并进行整理、译释,对中古时期(5世纪-15世纪)回鹘人信仰景教进行了调查、整理和分析。一直以来,回鹘景教并未引起人们的重视。原因有以下三点
目的研究C反应蛋白(CRP)联合降钙素(CT)鉴别诊断老年系统性红斑狼疮(SLE)感染的价值。方法 200例SLE患者包括发生感染的100例为观察组和未发生感染的100例为对照组,比较两组
目的探讨调节性T细胞(Treg)、辅助T细胞(Th)在慢性阻塞性肺疾病(COPD)患者肺功能降低中的作用。方法采用肺功能仪观察COPD患者肺功能变化,采用酶联免疫吸附法检测血清γ-干扰
资源型城市可持续发展仍然是至今为止尚未完全破解的世界性难题。通过以低碳经济视角分析了红河州规模以上工业企业能源消费种类和能源消耗的碳排放量,得出了电力、热力、有
我国现行的增值税会计核算遵从的是"会税合一"的核算模式,它使得会计信息不能反映企业的财务状况,存在众多弊端,其中最突出的是影响了会计信息的不可比性,同时还存在不可理解