基于主题模型和混合模型的微博客交叉话题发现研究

来源 :西南交通大学 | 被引量 : 0次 | 上传用户:seaboy258
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
微博客是一个基于用户关系的信息分享、传播以及获取的平台。微博已经成为互联网上的主要信息源之一。跟其他网络文本不同,微博客内容简单(一般少于140个字)且可以通过各种通讯手段(手机、QQ等)实时发布,容易在短时间内产生大量数据,且这些数据通常数量巨大且杂乱无章,所以很难及时准确地获取感兴趣的信息。话题发现是自然语言处理领域一个新的研究方向,它能够把属于同一话题下的分散的信息有效的汇集并组织起来,从而帮助用户在大数据中快速准确地找到自己感兴趣的信息。传统基于向量空间模型(VSM)和聚类算法相结合的话题检测算法虽得到广泛的应用,且取得了不错的效果,但应用在大规模微博文本话题发现时仍存在很多不足:一是用特征词表示微博文本会出现维度过高、稀疏、同意问题;二是采用文本聚类的话题发现算法大部分都是基于划分的,没有考虑话题之间的关联性,所以存在一定的局限性。在上述基础上,针对微博文本的特点,采用主题模型作为文本表示模型。常用的主题模型主要有潜在语义分析LSA (Latent Semantic Analysis)、概率潜在语义分析PLSA (Probability Latent semantic Analysis)和潜在狄里克利分布LDA (Latent Dirichlet Allocation),其中LDA是当前最流行和常用的主题模型,所以本文使用该模型用于提取微博文本隐主题。为了解决传统话题发现算法存在的不足,提出混合模型交叉话题发现算法用于微博交叉话题发现。本文设计完成了微博交叉话题发现系统,在真实数据上的实验结果表明,本文提出的算法具有一定的可行性和有效性。
其他文献
视觉显著性是由于人类视觉系统在视觉注意机制的指导下,选择性地处理那些重要的、吸引人眼注意的视觉信息而忽略那些无关紧要的信息而造成的。在计算机视觉领域中,研究者们提出
路面裂缝作为一种常见的路面病害,受到公路管理和养护部门的高度重视。通过快速、准确地获取路面破损信息,来制定相应的修理、养护计划。而传统的人工目测的方法由于存在耗时、
认知无线电技术(CognitiveRadio,CR),被认为是解决当前频谱稀缺现状的有效方法,已经成为近年来无线通信技术研究的热点之一。认知用户的可用频谱,随着授权用户的使用情况以及空间
目前,北斗卫星导航系统作为国家战略性新兴产业,具有广阔的应用前景。实现高精度定位对于北斗卫星导航系统在精密导航、工程测量,地理信息采集等领域的推广具有重要意义。本
全球通信技术长期以来一直处于高速发展,各种网络接入技术不断成熟,逐渐呈现泛在、异构的网络环境。而用户业务需求也越来越多样化,各种高速率数据业务层出不穷,未来的业务将
随着我国经济社会蓬勃发展,人们对饮食的要求不断提高,食品安全问题越来越受到重视。对农产品作物的安全保证、稳定供应和品质卓越的要求也随之提高。传统的密集型农业已经不再
层间插值是三维重建的关键技术之一,通过增加插值图像来缩小断层图像间的距离,提高体数据的分辨率,从而大大改善三维重建图像的质量。近年来,随着64/128/256多排CT的广泛应用
随着Internet的发展,网络用户日益增加,需要服务器系统具有处理高并发访问的能力。目前,服务器集群是解决服务器超载问题最有效的解决办法。它将多个服务器集中起来并行工作,
传感器是测控系统的首要环节,其测量精度对整个系统的性能有着决定性的影响。因此,对传感器静、动态特性进行校准和补偿的研究已成为国内外学术研究的重要课题。本文以采用动态
移动自组织网络(MobileAdhocNetwork,MANET)由一组无线收发装置组成,其无需基础设施支持。在数字化战场、紧急救助和传感器网络等领域具有广泛的应用。然而,当前大多数无线网络