基于LDA模型的文本聚类检索

来源 :计算机与现代化 | 被引量 : 0次 | 上传用户:suzuzl
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
传统的判断2个文档相似性的方法没有考虑到文本背后的语义关联,导致检索系统返回的结果与用户的查询需求之间存在很大的差异。本文提出一种基于LDA主题模型的文本聚类方法,首先介绍LDA主题模型的应用原理,阐述文本挖掘的基本方法,之后构建LDA主题模型,采用Gibbs抽样的方法进行推导,得到特征词的概率分布,最后用优化聚类中心选择的K-means++方法对测试数据集合聚类,并把设计的LDA-Gibbs模型与传统的TF-IDF模型进行聚类评价对比。实验结果表明,该模型能够提高数据的检索效果,具有良好的推广价值。
其他文献
借鉴和运用当代国际竞争力理论与评价体系,对世界各国和地区职业教育规模竞争力水平进行度量。结果显示,职业教育规模国际竞争力水平与人均GDP呈现动态平衡性;职业教育的规模
针对近年来核电厂用户已经不再满足功能单一、仅能实现显示功能和简单控制功能的安全显示装置的需求,设计了一套数字化大尺寸安全显示系统。硬件采用主机与触摸屏显示器分体
目的研究新疆鹿蹄草Pyrola xinjiangensis的化学成分。方法采用硅胶柱色谱和Sephadex LH-20等分离手段进行分离纯化,通过理化性质和波谱学手段鉴定化合物结构。结果从新疆鹿
介绍了ARCS动机模式,借鉴其与加涅的"九大教学事件"的关系,结合生物学实验教学的特点,规范了教学过程,并以"酶"一节实验教学为例,谈谈基于ARCS动机模式的生物实验教学实践与体会
阅读可以开阔学生视野,增长学生见识,提高学生文化修养。在教育发展新阶段,学校有必要与家长相联系,携手共进阅读活动,使学生沉浸在书香世界中,提升学生阅读水平。本次分为三
作者简述了道教置建宫观的历史,对唐代政府置建宫观的常制作了较为详细的阐释,剖析了唐代政府控制置建寺观的重要手段——赐额制度,还对唐代置建宫观的资金来源做了分析。
该文提出一种新型自复位全钢型防屈曲支撑(SC-SBRB),主要由防屈曲耗能系统和预压组合碟簧自复位系统并联组成。对其基本构造和工作原理进行了介绍,建立了能够准确描述支撑滞
目的确定雷公藤甲素脂肪乳的处方及制备工艺,并对其体外性质进行考察。方法采用高压匀质法制备雷公藤甲素脂肪乳,单因素和正交设计法考察制备工艺及处方;采用激光粒度测定仪
为了构建一种新型的Caco-2细胞中空纤维膜反应器,探究该模型应用于研究功能性成分吸收转运的可行性,利用体外细胞培养技术,将Caco-2细胞接种于聚醚砜(polyethersulfone,PES)和
3月16日,市市第四医院召开深入学习实践科学发展观活动动员会,医院党委书记李怀章作动员讲话。