基于词向量的短文本主题建模研究

来源 :武汉大学 | 被引量 : 10次 | 上传用户:yanghao_haohao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
对于目前许多的应用来说,都需要我们从语义上去理解短文本,从短文本中推测出隐藏的主题结构信息已经变成了一项非常重要、基础的任务。传统的主题模型基本上依赖文档集中单词之间的共现信息来推导文档背后隐藏的主题结构信息。然而,由于短文本的文档长度较短这一特点,短文本中单词的共现信息非常匮乏,我们称这种特征为短文本的信息稀疏问题。信息稀疏也成为了传统主题模型在短文本上难以成功的瓶颈之一。从另一方面来说,当我们人类去理解一小段文本时,不光靠文本内容自身,还有读者大脑中的背景知识(例如单词的词性,单词在上下文单词的联系等)。随着最近词嵌入(Word Embeddings)的迅速发展,这给我们带来了一些契机。词向量能够将单词映射到一个高维的空间之中,在语义、词法上较为接近的单词在该高维空间之中也更为接近。进而,我们可以认为在该高维空间中,不同单词之间的距离关系能够给我们带来更多的语义知识。在本篇工作中,我们利用词向量提供的这种额外语义知识来帮助提高主题模型在短文本上的效果。因此,我们提出了一种简单、高效、可扩展性强的主题模型,称为辅以波利亚罐子模型策略的狄利克雷多项式分布模型(GPU-DMM)。GPU-DMM是基于狄利克雷多项式分布(Dirichlet Multinomial Mixture)模型的一种扩展,它利用了一般化波利亚罐子模型(GPU)策略促进了单词的语义相似词在某个相关主题下出现的概率。经过一定的反复采样更新之后,我们在外部语料集上学习得到的背景知识(语义相关性)可以很好的融入到模型的主题推导过程之中,提高了主题模型在短文本上的效果。通过对近几年短文本主题模型之上的研究工作,我们选取了 4种模型作为我们实验中的对比模型。我们在两种语言的真实数据集上进行了实验,我们证明了其提出的新模型GPU-DMM在主题一致性指标上同已有的最优模型相比能取得更大的优势;根据主题模型的结果,每篇文档可以表达为主题分布,即每篇文档被表示成一个向量分布,并应用标准分类器支持向量机(SVM)在文档分类任务上,GPU-DMM同其他模型相比取得了更高的准确率。最后我们对比了模型的运行效率,实验证明新模型GPU-DMM在时间效率上也有一定的竞争力。
其他文献
<正>水稻是阜康市的特色产业,也是农民增收的亮点,常年种植面积达到500公顷。由于长期以来水稻种植模式陈旧、水需求量较大、育秧插秧环节用工投劳量大,费水费工,极大地制约
为了帮助接受全日制义务教育的全国广大初中毕业生做好2006年升学考试前的数学复习应试准备,本刊经上级主管部门批准,编辑并将于2005年11月11日出版增刊《初中数学复习专辑》,在
期刊
目的:了解不同方式的联合诊断对于子宫内膜息肉(Endometrial polyps,EP)的意义。方法:从本院病案室收录的病历资料中抽取200份进行回顾性分析,病历记录的时间范围为2019年2月
脑垂体瘤是一组在脑垂体上皮残余细胞发生的肿瘤。脑垂体瘤大部分为良性腺瘤,极少数为癌,如果不及早治疗就会给患者身体及精神健康造成严重的威胁。在采取手术治疗的过程中,患者
孕妇和胎儿之间血型不合而产生的同种血型免疫,可导致新生儿溶血病,其中以ABO血型引起的新生儿溶血(HDN)最常见,ABO-HDN患儿的母亲多数为O型[1]。
目的比较高血压患者在丙泊酚与七氟醚深麻醉下拔管时心血管变化及并发症,探讨深麻醉下拔管最佳方法。方法择期腹部手术高血压患者40例ASAⅠ~Ⅱ级,术前血压控制在150/90mmHg以
<正>为了解河北省城乡居民卫生服务可及性现状,制定相应的医疗保健政策提供科学依据,根据河北省第4次卫生服务调查数据,对城乡家庭经济状况、卫生服务可及性及家庭成员的医疗
我们希望为患儿提供人性化的护理服务,护理的人性化要求我们首先要真正了解患儿的心理需求。长期以来医护人员对患儿心理的重视,只停留在一个很基础的水平。在病房的设计和安排
袋装疱疹后神经痛发生于带状疱疹病毒感染后,10%的患者疼痛时间超过一个月,如得不到及时治疗或治疗不当,疼痛可在疱疹消失后仍然存在,有的病例疼痛甚至超过数十年。与发病年
临床上,小儿足踝部创伤日益增多,因皮下组织薄弱,外伤后常合并血管神经肌腱骨骼外露,都需要皮瓣修复。我科2006年2月至2011年2月采用不牺牲腓动脉主干血管的腓动脉皮支联合腓