基于微博的热点话题发现

来源 :西南大学 | 被引量 : 0次 | 上传用户：tianyawoaiai

【摘要】

：

随着网络信息技术的发展,互联网数据及资源大幅增加,并呈现出海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近年逐渐成为倍受关注的领域

【作者】

：

朱颖

【机构】

：

西南大学

【出处】

：

西南大学

【发表日期】

：

2014年期

【关键词】

：

热点话题挖掘主题分析潜在语义分析分类

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着网络信息技术的发展,互联网数据及资源大幅增加,并呈现出海量特性。为了有效地管理和利用这些海量分布的信息,基于内容的信息检索和数据挖掘近年逐渐成为倍受关注的领域。其中,基于语义的文本主题分析在近年来成为信息检索和文本挖掘的热点研究方向,其主要任务是根据文本中已知的“文档-单词”分布生成“文档-主题”和“主题-单词”两个分布,从而提取出文档中隐含的主题信息。主题分析模型在文本分类聚类、信息组织与管理、热点话题挖掘等领域都有着广泛的应用。近年来,随着Web2.0的兴起,社会网络,比如人人网、Facebook、Twitter、新浪微博等非常流行,逐渐成为人与人联系的重要方式。社交网络中80%以上的数据为自然语言文本,海量的用户产生数据(UGC),充斥着网络空间。为了使用户能更快捷,更方便地了解热门话题并参与到当前话题的讨论之中,对微博热点话题的挖据显得非常重要。但是因为社会网络中的文本有其自身的特点,传统的针对长文本的主题分析模型并不能取得很好的效果。社会网络中的文本有几个显著特点：高维性、稀疏性、不规范性、主题分布不均。换言之,微博中每分钟都会有大量的消息文本产生,这些消息文本很可能产生上万维的向量,这对于主题分析模型来说太耗时,导致效率低下；而对于长文本来说,它的关键词少,特征稀疏,很难抽取有效特征,更难以挖掘特征相互之间的关联性；用语不规范和流行语多,是网络文本的最大特点,也为这类主题挖掘带来了诸多难点；另外,发布的消息主题类型完全依赖于用户自己的兴趣,在微博中,绝大多数消息都是关于日常生活的,比如天气,心情等,因此仅仅根据单词出现的次数来判断其是否为热点话题相关的单词的做法不足可取。用传统的主题分析方法对微博中的文本进行热点话题挖掘,一方面识别不出热点话题相关的信息,会导致准确率较低：另一方面,文本太多,使得主题分析效率很低。近年来,有很多针对微博中热点话题挖掘进行的研究。鉴于微博中文本存在的特点及针对该文本进行热点话题挖掘所存在的问题,本文首先对,利用外部数据集进行了深入地探讨；另外,利用微博中自身属性也是一个研究方向,微博中的属性包括发布时间,标签,转发数和评论数等,这些属性对于热点话题挖掘非常有用,本文探讨了如何对此加以利用,提高热点话题的预测准确率。本论文的贡献如下：1)根据基于实体的相似性算法将每个用户所发布的相似消息合并为一个文档,增加文档信息；然后将多个外部数据集作为知识背景,用LDA (Latent Dirichlet Allocation)模型对数据集进行热点话题挖掘。2)提出一个新的主题分析模型MA-LDA (Multi-Attribute Latent Dirichlet Allocation),这个模型将文本中单词的时间分布和标签结合到LDA模型之中。通过时间变量来判断当前分析的单词属于热点话题,还是一般话题；通过增加标签词汇的权重,使得实验结果中标签词汇排名更靠前,提高了结果的表达性。实验结果表明,本文提出的方法既提高了热点话题挖掘的准确率,也显著地提高了主题分析模型的效率。

其他文献

自主移动机器人路径规划的RRT算法研究

移动机器人运动规划技术是自主移动机器人导航的核心技术之一,而路径规划技术是导航技术研究的一个关键课题。路径规划的任务是：依据一定的评价准则(如距离最短、时间最短、工

学位

移动机器人路径规划快速扩展随机树(RRT)RRT-ConCon算法双向快速扩展随机树

基于人眼视觉特性的医学图像增强技术

随着科学技术，特别是电子技术和计算机技术的发展，医学图像的采集和处理技术有了长足的发展。在此同时，也涌现出了许许多多的医学图像增强技术。医学图像是现代医疗诊断和医学研

学位

医学图像增强对比灵敏度边缘敏感性增强函数

一种基于后缀数组和倒排表的全文索引模型

全文检索系统支持快速从海量文本数据中检索信息,具有重要的应用价值。全文索引模型是全文检索系统的核心,它决定了全文检索系统的功能与性能。全文索引模型设计为全文检索研

学位

全文索引模型短语查询排序查询自索引倒排索引后缀数组

基于深度时空残差网络的航班需求预测方法研究

在民航领域,如何及时准确地把握民航市场需求变化,是摆在民航业面前的核心问题。精准的航班需求预测模型可以帮助民航业提前感知市场需求、提高民航服务质量和企业收益管理水

学位

航班需求预测在线机票查询卷积神经网络残差学习

复杂光照条件下人脸跟踪算法研究

随着人工智能、模式识别、数字图像处理等领域的日益快速发展,以及天网工程的逐步实施,智能视频监控技术已经成为人们关注的热点,并逐步发展为一门应用广泛的技术。视频中人

学位

目标跟踪Mean Shift算法Gamma校正特征融合

基于Android平台的NFC服务框架的设计与实现

Near Field Communication作为一种近场通信技术在全球发展迅速,已经在世界各地广泛尝试,该技术不仅是普适计算的主要推动者之一,也为计算设备之间安全的数据交换提供了保障

学位

NFC近场通信Android框架

城市区域人口流量计算及预测研究

准确地预测城市区域的人口流量，将会为政府和管理部门合理分配城市资源、改善市民出行体验、消除城市安全隐患等提供有效决策支持。城市区域人口流量预测是一个十分具有挑战性

学位

城市区域人口流量预测深度学习卷积神经网络长短期记忆模型时空数据挖掘

基于计算机视觉的手势识别技术研究与应用

伴随着计算机技术的发展和互联网的普及,人机交互在人们日常生活中显得越来越重要。随着图像处理、模式识别以及计算机视觉等相关技术的不断发展,人们开始研究更智能、更自然

学位

手势检测手势识别人机交互

基于统计方法的汉语依存句法分析研究

句法分析的任务是根据给定的语法，自动推导出句子的语法结构。句法分析性能的提高将对信息检索、信息抽取以及机器翻译等应用产生重要的推动作用。　　在句法分析的研究中，依存

学位

句法分析依存语法名词复合短语动态优化多语依存分析

SaaS应用交付平台中多租房云数据管理关键技术研究

随着云计算的发展及应用软件的成熟，软件即服务(Software as aService，SaaS)作为云计算的一种应用形式，越来越受到重视，已逐渐成为中小企业应用先进技术的重要途径。SaaS应用交付

学位

计算机网络云计算系统信息共享数据结构

基于微博的热点话题发现

其他学术论文