基于词三角的短文本主题模型算法

来源 :南京大学 | 被引量 : 0次 | 上传用户:ericshen81
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着社交网络和问答网站的兴起,短文本已成为网络上信息传递的主要方式,例如传统网页的标题、各类新闻和博客的标题等都是短文本形式的。同时,微博、知乎、Twitter、Facebook等网站的主要数据形式也是短文本。因此,从短文本中挖掘主题信息有着广泛的应用场景,例如从微博中发现突发性话题,利用文本主题信息进行个性化推荐等等。主题模型是有效的从文本中挖掘潜在主题信息的方法,然而由于短文本中"文档-词"的数据过于稀疏,传统的主题模型在短文本主题挖掘方面的效果并不理想。针对传统主题模型在短文本领域的局限性,本文提出了一种新的短文本主题模型——网络词三角主题模型(WTTM),克服了数据稀疏性的问题,并在试验中取得了较理想的效果。本文的主要工作如下:1)针对普通词网络无法指示不同文档子网络交汇部分的问题,对词网络构建策略做出了改进,利用词对出现的文档序号集合作为对应边的标签,使得可以通过对比两条边的标签来判断对应的两个词对是否来自同一文档,从而判断其是否处于文档交汇处;2)针对普通"词-词"共现关系语义关联较弱的问题,提出了从词网络中寻找特定词三角结构的策略,挖掘词网络中代表着词之间更强主题关联性的词三角结构,词三角中的词有着更强的语义关联性,和更强的主题集中性;3)以词三角为文本主题的基本单元,提出了网络词三角主题模型(WTTM),并与LDA和BTM进行了对比实验,实验结果表明,在短文本主题挖掘方面,WTTM相对于LDA和BTM都具有一定优势;4)在词三角结构的基础上进行词团结构的拓展,分析词团中的节点个数对主题挖掘效果的影响。随着词团中节点个数的增加,词团主题模型主题聚合度的实验结果也取得了一定提升。
其他文献
多媒体技术和网络技术近年来得到迅猛发展。随之而来的数字媒体的信息安全、知识产权保护和认证等问题也变得日益突出,这已成为数字世界中的一个非常紧迫的重要议题。数字水
计算对称矩阵中的某些特定的特征值和特征向量问题是很多科学计算领域中都存在的重要课题(如电子结构计算领域)。在很多领域,特征值问题的计算在总计算时间中占据很大的比重,对于
众所周知,软件不可避免地持续演化已经是不争的事实。而演化的挑战不仅是演化什么和如何演化,还包括软件生命周期中相关工作制品的同步演化,也就是软件演化的维护和管理。面向特
信息化技术已经逐步深入到政府管理工作中的各个环节,以信息化技术为基础的电子政务2,已经成为政府提高管理水平和办事效率、促进政务公开和廉正建设的重要手段。 传统的面
本论文以实现规划数据的共享为目标,研究如何建立一个基于WebGIS规划管理信息发布系统,这样的平台能把规划信息以电子地图的形式发布在互联网上,不仅能及时的了解全市规划资源的
随着移动互联网和社交网络的大规模普及,越来越多的用户每天会产生数以亿计的用户产生内容(UGC)。然而,由于用户发表内容的门槛的降低,任何用户在任何时间都可以发表自己的想
网络隐蔽通道足指在网络中的不同主机之间建立的一个用于传输非法数据的通道,其作为一种新的网络入侵方式,越来越多地被使用。目前,针对网络隐蔽通道的检测软件比较少,多数的网络
学位
本论文所描述的应用系统是将定位技术与GIS技术相结合,与办公自动化系统相集成。在OA系统进行相应的管理监控下,定位系统为GIS系统提供准确的位置坐标,GIS系统根据坐标在电子地
目前GPU的作用不仅限于图形图像处理,作为GPGPU已是高性能计算任务、大规模数据处理等任务的首选计算核心。实际应用中的主流架构为CPU-GPU异构架构,其中GPGPU作为运算主体,而CP
由于信息技术的发展和日趋激烈的商业竞争,人们不再满足于独立、零散的办公自动化和计算机应用,而是需要综合的、集成化的解决方案。作为一种对常规性事务进行管理、集成的技术