基于文本表示的微博聚类分析研究

来源 :大连理工大学 | 被引量 : 1次 | 上传用户:x8890367
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
文本聚类分析是数据挖掘领域在文本处理方向的重要研究问题。由于无监督的聚类方法可以识别社交媒体文本信息中的潜在的主题类别,发掘未知的价值领域,并能保持在海量规模数据中的运行效率,其被广泛应用在事件抽取、社区发现与用户画像等实际问题中,广受学者和工程师的青睐。对文本聚类问题而言,文本表示的方法至关重要。其中向量空间模型是文本聚类中最常用的表示模型,但其存在着语义孤立、特征稀疏的问题,难以准确衡量文本之间的相关性。近年来,一些学者也基于表示学习来度量文本相似度,但在无监督的聚类任务中仍存在精度不足的问题。本文针对以上问题,面向微博聚类任务,提出了两种改进方法:一、利用TF-IDF算法和外部情感词典,生成向量空间表示与情感标识,并结合词嵌入模型,改进文本之间距离计算,以缓解聚类算法中特征孤立、稀疏的问题。在此基础上,本文还提出了一种基于热度统计的聚类中心初始化算法,对聚类算法进一步优化。二、面向文本聚类任务,基于先进的自监督表示学习模型,提出了一种学习文本语义相似度的句子表示模型CIRN。通过学习通用性更强的分布式表示,来更准确地衡量文本之间的距离。本文提出的两种方法分别借鉴了Word Embedding特征表示和Input-Response模型。为了验证改进文本表示在聚类任务中的效果,本文在具有标注的新浪微博和Twitter数据集上进行了实验。实验结果表明,改进的表示向量在微博聚类任务上有更好的类别划分能力,并在纯度和归一化互信息上都取得了不错的分数。
其他文献
随着信息技术的飞速发展和人工智能时代的到来,现代社会对电子信息存储产品的要求也越来越高。有机场效应晶体管结构的非易失性存储器(OFET Memory)作为半导体电子器件的重要基
获取信息是日常生活中必不可少的部分,然而互联网上的信息特别多,想要获取自己需要的信息费时费力,为解决这一难题,自动问答任务随之提出,其目的是从互联网上找到人们需要的
随着大数据时代的到来,如何从庞大的数据集中挖掘有用信息已经成为了一个亟待解决的社会难题。在线凸优化是一种计算高效且具备理论保障的通用学习范式,能够赋予机器学习算法
在全球气候变暖、环境问题日益严重的当下,风能作为一种清洁可再生能源已经得到越来越广的应用。垂直轴风力发电机是一类能适应恶劣风场环境的小型风能发电设备。由于其条形
自然条件下获取的户外图像很容易受到环境因素的影响,例如:雨,雾,雪,光照条件等,使得获取的户外图像质量变低,很难满足计算机视觉应用的需要。目前解决环境因素导致的图像增
近几年,随着人们对地球流体力学与大气动力学的深入研究,一系列的成果不断涌现,其中,Rossby孤立波的研究作为一类特殊的、重要的分支,具有重要的理论意义和研究价值。Rossby
无机氧化锌(ZnO)材料具有电子迁移率高、成本低廉、环境稳定性好、透明度高以及空穴阻挡特性优异等优势,因此常用于倒置有机光伏器件(OPVs)的阴极界面层(CIL)。溶胶-凝胶法是ZnO CI
认罪认罚从宽制度是指在刑事案件中,犯罪嫌疑人、被告人为了获得相对更轻的刑罚和更快的审判程序,与检察机关就起诉的罪名和事实达成共识,如实供述犯罪事实的法律制度。认罪
在海洋工程快速发展的今天,海洋管线已经广泛地应用在各个海洋资源运输工程中,石油,天然气等重要海洋资源都是通过海底管线实现向陆地传输的,所以在实际工程中,自然而然地就需要考虑运输途中管线的安全问题,因为海洋环境的复杂性,各种荷载的复合作用以及本身环境相对于陆地的特殊性,都十分容易造成海底管线在这一过程中发生失稳的现象,在过往几十年的实践运用历史中,已有相当一部分事故是由于海底管线在复杂环境中破坏失效
软件定义网络作为未来网络的一种典型范例,实现了转发功能与控制功能的分离,通过提供开放的编程接口有效地解决了传统网络因功能和应用不断扩展所导致的网络结构复杂化的问题