基于LDA模型的文本主题挖掘和文本静态可视化的研究

被引量 : 0次 | 上传用户:xytim021
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术的发展,人们生活在一个充斥着信息的世界里。在享受各种信息服务所带来的便利的同时,也不得不面对着信息过多而难以处理的局面。文本作为信息最主要的载体,其信息过载的现象表现的最为突出。因此,研究如何从文本语料集中归纳总结出文本的主题,已经成为文本挖掘领域的研究热点。本文基于LDA模型对文本主题挖掘和文本静态可视分析进行了研究。具体工作如下:(1)首先,提出了文本中主题相同的连续词项具有连续语义的思想,并且根据这个思想提出了一种基于LDA模型的抽取文档主题的方法,改进了单一主题词对主题表达不足的问题。通过实验验证,该方法抽取的主题具有较好的准确性和可读性。(2)接着,针对招聘信息文档其文档篇幅短、每一句主题明确的特点,在(1)的基础上,提出了一种基于LDA模型的挖掘招聘信息的技术主题的方法。该方法以句子为单位使用LDA模型对招聘信息建模,再通过SVM分类提取出与技术相关的句子,最后使用(1)的方法从技术相关的句子中抽取出技术主题并且整合成招聘信息的技术主题。实验表明该方法能够准确的挖掘出招聘信息的技术主题,获得了良好的效果。(3)最后,针对普通文本表现主题能力弱的问题,提出了一种对语料集中单篇文档进行主题静态可视化的方法。该方法将LDA模型对语料集生成的主题词权重与tf-idf相结合,计算主题词组的权重;再确定主题布局;最后使用Processing,生成单篇文档的主题静态可视化。并且在(1)(2)的工作基础上,使用该方法对一篇招聘信息文档进行静态可视化处理。实验表明该方法在展现文档主题方面具有较好的效果。
其他文献
中国与印度都是快速发展的国家,是新兴的大国。两国关系既有一般意义上大国关系的特点,又具有一些新特征,主要表现为:两国都希望利用现有的国际环境保证本国发展;两国都将发
肝脏疾病在我国的患病率较高,传统的诊断包括血清酶学、病毒标志物和超声、CT等影像学方法。近年来,随着介入超声技术的发展,肝脏穿刺组织活检已成为肝脏疾病病理诊断、评估
简易洗车台及其附属循环水处理设施因设置简单、造价低、使用方便而广泛应用于国内各大钢铁企业。但在实际使用中,却也面临着洗车效率低、循环水质差等种种问题,对此进行了具
目的:探讨PBL-SBME-Seminar联合教学模式在妇产科住院医师规范化培训临床教学中的应用并比较其与传统教学模式的差异,分析这种联合教学模式的优点及存在的缺点,从而为今后妇
目的:总结胸腔镜下心包开窗术诊治儿童心包积液的经验,探讨其临床价值。方法:回顾性分析2012年1月~2018年5月我院实施的63例胸腔镜下心包开窗术患儿的临床资料。本组男性39例,
为了得到汽车车身材料CO2排放和车身轻量化的关系,并对车身材料轻量化发展作出合理预测,该文基于生命周期评价方法,利用生命周期评价专用GaBi建模软件,分析了普通低碳钢、镁
针对含有不确定性的SISO非线性系统跟踪控制问题,本文提出一种自适应神经网络快速终端滑模控制方法(ANNFTSM)。在常规快速终端滑模控制算法的基础上,引入RBF神经网络,通过反
现代社会,行政权力膨胀的趋势在任何国家都是普遍存在的,我国出租车行业也不例外。通过对上海市出租车行业的调研发现,出租车的数量受政府控制、价格由政府制定、服务质量由政府
长期以来,我国公用事业被视作自然垄断的福利性产品,采取政府投资运营的单一模式,该模式在实践中缺乏积极性和约束性,效率低下等弊端逐渐显露,原本的政府“独裁式”管理被实践证明