基于主题模型的微博话题检测与跟踪研究

来源 :中南林业科技大学 | 被引量 : 0次 | 上传用户:kirawu
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,如今的网络在线数据以短文本的形式呈爆炸性趋势增长。话题检测与跟踪技术就是为了应对日益严重的互联网信息爆炸问题提出的一种信息处理技术,对网络舆情预警具有非常重要的作用。传统的话题检测与跟踪的技术基本都是针对新闻报道进行研究的,这些新闻报道的文本格式比较规范,篇幅较为统一,与现在网络上流行的短文本数据特征差异很大,使得传统的文本处理方法已经不再适合对短文本数据进行处理。基于此,本课题提出了一种新的基于主题模型的短文本聚类方法,对微博数据进行话题检测与跟踪研究,旨在为网络舆情监控提供有力支持。具体研究工作主要包括:1、对传统的话题检测与跟踪方法进行了调研,了解了已有的相关技术。又对现在的微博文本数据格式进行了分析,从微博平台的特征出发,再结合用户的行为习惯进行分析,找到微博话题的文本格式特征,得到微博话题的文本数据具有时效性、稀疏性、奇异性和冗余性等特征。由于这些特征,使得将传统的话题检测与跟踪方法运用到微博数据上进行处理时存在严重的高维、稀疏等问题。2、通过对微博话题的文本格式特征进行分析,设计了一套基于主题模型的算法,其主要思路是:对采集的原始文本进行预处理后得到关键词;由关键词构建文档词条矩阵;根据文档词条矩阵生成词语关联矩阵,并提取主题词;然后对主题词进行聚类,从而生成主题模型。3、将主题模型运用到话题检测与跟踪步骤中,利用文本与主题模型相互进行匹配,可以得到文本类别,以此实现文本的聚类,从而达到话题检测的目的。再通过对每一个时间段的数据进行话题检测,得到其话题的数量,然后进行统计分析,可以得到每一天内话题出现的情况。最后通过实验证明,该方法可以有效解决数据处理的稀疏、高维的问题,在话题检测的准确率上能取得较好的结果,并能够清晰的展示出话题的演变情况。
其他文献
在过去的十几年里,随着企业业务流程的广泛应用,工作流有了很大的发展,但是随着业务规模的不断扩大,流程的日趋复杂,工作流面临着更大的挑战,因此,面对复杂多样的应用环境,需
压缩感知是以信号的稀疏性或可压缩性为先验知识,能够直接感知信号的压缩形式,在信号采样的同时完成压缩。因此,压缩感知突破了奈奎斯特定理中采样率必须依赖于信号频率的制
γ能谱同一性分析在核技术研究中占有重要的地位,但目前对其研究尚不完善。借助快速发展的计算机技术以及成熟的数学理论知识,完成γ能谱同一性识别工作对核技术发展具有重要意
本文研究的是大规模并行处理系统的处理器的故障诊断。在本文一个系统简单的抽象为它所采用的互连网络的拓扑结构。自动的处理器故障诊断是系统实现高可靠性的不可分割的一部
互连网络的可靠性是衡量一个互连网络性能优劣的重要参数。优秀的网络模型应该具有良好的可靠性,使得该网络在部分节点或链路出现故障时,剩余的非故障节点或链路仍能进行高效
随着现代机械加工和机械传动的发展,在生产实践活动中常常会碰到用繁琐的函数表达式表示的复杂曲面,也会出现一些根本就不能用解析表达式描述的曲面,甚至由于知识产权的问题,使得
随着Internet的发展,越来越多的个人、企业、机构组织等都接入了Internet。人们通过Internet可获得最新的信息,了解行业的发展情况,提高工作的效率等。Internet在经济、政治
软件测试是保证软件质量及可靠性的关键,软件测试的开销常常占整个工程预算的很大比重。目前,GUI程序已经得到了广泛的使用,进行有效的GUI测试变得十分重要,但对GUI测试的研
21世纪是生命科学研究的新时代,是系统生物学的时代。系统生物学以系统的观点,运用工程和计算机技术和各种先进的生物学研究手段研究细胞中所有基因和蛋白质来解释生命的奥秘。
随着网络技术的飞速发展,网络安全问题日益突出。入侵检测系统处理能力的缺乏引发了入侵事件的漏报或误报,提高入侵检测系统的检测速度和检测准确率是目前急需解决的关键问题。