融合时空信息的社交媒体事件检测方法研究

来源 :电子科技大学 | 被引量 : 0次 | 上传用户:gggoshow
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
社交媒体是拥有众多用户参与的新型在线媒体,近年来以推特为代表的社交媒体网站吸引了数以亿计的用户,现实社会中所发生的重大突发事件在社交媒体中会得到快速的反应与广泛的传播,因此社交媒体中包含着丰富的突发事件的相关信息。社交媒体中的事件检测方法为利用机器学习与自然语言处理等技术,从海量的社交媒体数据中寻找现实生活中所发生的突发事件的方法,有效的事件检测能让人们及时了解社会中所出现的热门事件信息,并帮助政府等机构及时应对社会事件并采取相关措施。对于现实生活中具有一定影响力的事件,事件相关的内容通常在社交媒体中会引入广泛讨论,因此现有社交媒体事件检测的一个基本思路是通过文本聚类发现事件相关的文本,再对文本聚类进行分析判断是否为突发事件。但是,现有研究存在两方面问题:1)对社交媒体的短文本流的文本聚类效果不佳;2)事件的特征提取与判定不够准确。针对以上问题,本文以通过时空信息获得更加准确事件特征的角度研究社交媒体事件检测方法,主要贡献概括为如下两方面:(1)提出基于融合相似度的在线密度聚类方法。在相似度计算方面,考虑到社交媒体中文本长度较短等特点,本文利用短文本流构建动态的单词关联空间,并基于该空间构建融合多项指标的文本相似度。在文本聚类方面,针对Single-Pass增量聚类方法效果不佳的问题,本文使用在线密度聚类方法对短文本流进行在线聚类。实验表明,本文所提出的方法在文本相似性度量与文本在线聚类等方面都取得了良好的效果。(2)提出基于地理实体的突发事件判定方法。由于现实中所发生的事件多数与地理信息有关,本文在针对文本流进行突发地理实体检测的基础上,对事件进行过滤得到真实的突发事件。在地理实体的突发性判定中,针对地理实体的频率分布具有长尾效应的特点,本文通过对数标准化将其转化为较为标准的正态分布,并通过Z分数衡量地理实体的突发性水平。对于与所检测到的突发地理实体相关联的候选事件簇,本文采用多级过滤器对其进行筛选,并提取代表推文对事件进行描述。通过在实际数据中的测试发现,该方法能够及时并准确地检测到突发事件的相关信息,取得了较好的事件检测效果。
其他文献
流动性约束理论认为,借款利率通常大于储蓄利率,消费者并不能按照相同利率进行借款,受到了流动性约束,消费者的暂时性收入受到了影响,而由于消费对收入存在“过度敏感性”,消
加强非公有制经济组织的党建工作,是中国共产党应对社会主义市场经济条件下所有制结构和社会阶层的新变化、进一步密切联系群众、增强党的阶级基础、提高工人阶级队伍的整体
随着我国企业规模的不断扩张,企业对其内部各组织结构也逐渐进行了细化。因此,为了企业的长远发展,企业所有者必须让出企业经营权和管理权,随着两权分离情况的不断加剧,在当今市场高度信息不对称的前提下,委托代理问题随之出现。委托方和代理方由于目标与利益不一致,不可避免地会形成利益冲突。股权激励是一种有效的使委托方和代理方利益融合的方式。在股权激励的影响下,管理者不需要冒着高风险选择侵害股东利益的方式获取回
本文以塔里木盆地柯坪-巴楚地区肖尔布拉克组碳酸盐岩储层为研究对象,通过岩心观察、岩石薄片观察、地球化学分析、模拟实验等工作,较为系统的研究了储层岩石学特征、储集空
引言人民陪审员制度是社会主义民主政治在司法领域的具体体现,其中的事实审与法律审分离机制是《人民陪审员法》的重大亮点。环境污染防治作为《人民法院第五个五年改革纲要
会议
随着我国经济从高速发展阶段步入高质量发展阶段,人们生活水平不断提高的同时,开始追求更高质量的生活服务,有越来越多的人愿意花高价来追求高质量的服务,特别是对提高公共交通出行的高水平、高质量服务有更迫切的需求。在大城市中,以白领为代表的中等收入以上的消费群体,由于在舒适性、便捷性等方面的不足,传统的公共交通已经已不能满足他们的出行需求。作为中等以上收入的人群,他们更加倾向于定制化、个性化的出行方式,更
21世纪以来,中国从具有开放优势、发展潜力的东部地区入手,给予政策优惠和支持,成功实现了经济的快速起飞,但“先富带动后富”的蓝图并不理想。当下,我国东中西部地区经济发展水平差距较大,中西部地区亟需引入较为成熟的产业,来改善这一严峻的不平衡态势。与此同时,东部地区也需要优化产业结构,推动传统产业向外转移,致力于主导创新产业的发展。区域间产业转移是解决这一需求的重要途经,但其往往受到多种因素的制约,如
Spark是基于内存的分布式数据处理框架,在数据处理与分析、机器学习等方面应用广泛,对Spark平台的优化研究已成为当前的研究重点和热点。使用Spark平台进行数据处理虽然可以提高作业执行效率、减少数据传输时间,但是其计算性能容易受到多种因素影响,例如,底层硬件、结构体系、操作系统、应用程序等,从而造成在Spark内存分配中内存利用率低、Spark MLlib中聚类算法的准确率低等问题。因此,基于
习近平主席在2013年10月召开的周边外交工作座谈会上强调,思考周边问题、开展周边外交要有立体、多元、跨越时空的视角。我国周边地区是世界上战略分量最重的地区之一。这里
会议
随着互联网、信息及通信技术的突破性进步和广泛普及,作为制造业活动中不可忽视的一部分——服务要素投入的作用日益凸显,重要性与日俱增,全球制造业呈现出一种向“服务型制造业”转型的趋势。与此同时,中国制造业“大而不强”,出口产品质量较低,为此中国制造业亟需提质升级,获取动态竞争优势。制造业服务化是否会提升中国制造业竞争力?文章以加成率作为衡量制造业竞争力的指标,采用企业面板数据,考察制造业服务化对中国出