面向微博数据流的观点汇总技术的研究与实现

来源 :东北大学 | 被引量 : 0次 | 上传用户:yinzhg01
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种日益流行的Web 2.0应用,微博客已逐渐成为人们日常生活中记录身边事件以及交流个人观点过程中不容忽视的载体和不可或缺的平台,并被越来越多的人们所接受和青睐。微博用户可以通过固定或移动的客户端登陆,借助“发布”、“转发”等功能方便快捷的表达自己的个人情感和意愿。微博“方便快捷”、“可读性强”等特点使得其在短时间内得以广泛传播,并形成了其独特的传播快、流量大、实时性强、信息繁杂等特点,这些特点使得对微博数据的处理面临巨大挑战,微博用户迫切希望在第一时间简单快捷的获取某一事件的大众观点及相应的观点倾向。针对这样的需求,本文在充分考虑微博数据“流”形态的基础上,将观点汇总技术与之结合,旨在及时有效地获取用户希望得到的汇总观点。基于上述目标,本文首先利用流数据上的聚类手段,将目标数据流根据其包含的主题予以增量式的实时聚类,形成随时间变迁的动态主题簇。实验表明,在合适的参数范围内,本文提出的方法可以获得一个较为平稳的聚类效果,各主题簇间划分较为清楚。第二,在每个主题簇中建立起基于情感词的主题-观点短语树,以此作为一种压缩手段存储数据流产生的主题及观点信息,在此过程中充分考虑数据流的特性,辅以通过动态分析频繁项集,对形成的短语树进行的剪枝维护,以求将数据规模控制在可控范围。在相关实验中,本文成功构建出主题情感树,并通过依托频繁项集统计的方式实现了对树的规模的有效控制。最后,通过抽取每个主题簇中主题—观点短语树内的最长短语作为簇的代表主题及观点,将各簇中的抽取结果汇总,形成最终的针对整个事件的观点汇总结果。经过与相关方法的对比,五分之三的评测人员认为本文的方法得出的汇总结果更为出色,从侧面反映了本文提出的处理模式的合理性。综上所述,本文提出的工作流程和方法在充分考虑微博数据流实时性特点的同时,可以较全面地涵盖所分析数据的主题。基于情感词的短语树的构建成功解决了主题及观点的存储压缩问题,并在可接受的准确率损失度下形成了合理完整的主题—观点短语,最终分析形成的汇总结果具有较强的可读性以及较为突出的代表性。
其他文献
目前,解决垃圾邮件问题有众多的途径和思路,其中基于内容的垃圾邮件过滤方法是一个较为重要的方面,也是当前解决垃圾邮件问题的主流技术之一,它主要包括基于规则的方法和基于
本文的研究内容是面向Web的定题数据搜索与挖掘的研究及系统设计。通过自主开发的分布式定题Web信息搜索和挖掘原型系统Infox Studio 2,重点讨论了当前流行的Web挖掘以及搜索
随着互联网的迅速发展,XML已经成为互联网上信息存储和数据交换的重要标准,因此,XML文档的数据规模急剧增长,使得海量XML文档的查询处理成为当前比较热门的研究方向。XML文档
无限射频识别技术(Radio frequency Identification,英文简称为RFID)的理论最早产生于二战之后,发展至今已经有了60多年的历史,其用途也从军用渐渐转入民用。随着现代信息技术的
随着计算机技术与网络技术的迅速发展,网络化和信息化已经深入到社会生活的各个领域。在这种大环境下,规划、设计和实施与高校发展相适应的校园信息化系统,是每所高等学校发展的
随着Internet的不断发展,人们通过Web接触到了大量的数据和信息。现代社会的竞争趋势要求对这些信息进行实时和深层次的分析,但由于Web页面的复杂、而且是无结构的、动态的,导致
基于计算机视觉的行人检测在目前辅助驾驶中具有越来越重要的应用价值,已成为智能车辆研究领域最为活跃的研究课题之一。车载行人检测系统的目的是利用安装在运动车辆上的摄
由于下游水电站的建立,大坝蓄水,使水流变得缓慢,城市生活污水及工业污水不能及时冲走,城市河段的水质变得越来越差,因此需最大限度地促进河水流动,但又要有效的控制河水水位以保证
在信息技术不断发展的今天,面对大型主机几十年不变的字符界面,一方面,习惯了美观、易用界面的用户,变得很难适应这种字符界面,另一方面,大型主机人才的流失,也使得字符界面
作为大量空间应用的支撑软件,空间数据库的设计目标是高效存储和管理空间信息。这既需要对空间数据良好表达和组织,也依赖于数据库层次上的空间分析功能的实现。NHSpatial是