文本分析与主题推理方法研究

来源 :兰州交通大学 | 被引量 : 0次 | 上传用户:dfdfdfdfgdfdfg
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前的大数据时代下,互联网中文本数据规模庞大使得文本挖掘工具被越来越多的使用。主题模型作为一项重要的文本挖掘技术,在实践中常依赖于近似推理方法,包括以马尔可夫链蒙特卡罗为代表的随机性近似和以变分推理为代表的确定性近似方法。本文聚焦于近似推理算法,建立高斯混合模型对比了多种近似推理算法的多项性能,实现了基于融合算法的文本主题推理,并对算法与模型进行优化与可视化分析。综述了在变分推理领域近年来的国内外研究成果,针对当前存在的问题提出了改进思路,阐明了论文的研究背景、目的与意义。概述了所涉及的数学概念与方法,包括蒙特卡罗方法、马尔可夫链、变分推理的基本框架和潜在狄利克雷分配模型等核心概念与方法。阐明了近似推理问题、随机性近似推理和确定性近似推理的主要方法,包括Metropolis-Hastings采样法、切片采样法、汉密尔顿蒙特卡罗采样法、无掉头采样法、平均场变分推理算法、自动微分变分推理算法、规范流变分推理算法、Stein变分梯度下降算法和变分贝叶斯自动编码器算法。在对比实验部分,建立了高斯混合模型并使多种近似推理方法在模型中运行,通过有效性、准确性、鲁棒性等多项指标对比,证明了规范流变分推理算法的全面性。在文本主题推理部分,介绍了实验所用数据源的选取和数据集的制作过程,根据文本数据集的特点确定了一致表示形式,基于词频矩阵建立了潜在狄利克雷分配主题模型;分析了变分贝叶斯自动编码器算法与规范流变分推理算法融合的可行性,将二者融后在LDA主题模型上运行,提升了单一算法的运行效果;探究了所涉及参数与运行效果之间的关系,并对融合算法与主题模型做出优化;引入了可视化工具,对优化结果做出了基于可视化的分析。规范流变分推理具备在多种指标间取得平衡的能力,且足够灵活,具有与其他算法融合实现进一步提升的空间。主题推理研究显示,变分贝叶斯自动编码器与规范流变分推理的融合算法显著优于单一算法,其在证据下界、预测概率和有效主题词等方面相较于单一算法都有显著提升;根据所涉及参数与运行结果间的关系,本文对算法与模型进行了优化,并通过可视化分析证明了运行结果能够准确且全面地反映原始文本内容。
其他文献
随着机械系统工作环境的日益恶劣和各种高新技术产业的快速发展,对机械系统在宽温度范围内稳定运行的要求越来越高。此外,重要滑动部件的润滑和耐磨性关系到整个系统的安全运行,因此迫切需要提高滑动部件在较宽温度范围内的摩擦磨损性能。CrN薄膜由于其硬度高和良好的耐磨损性能,在工业中得到了较为广泛的应用,但CrN薄膜仍存在高温条件下摩擦系数较高的问题。二维层状结构的Mo S2由于其易于发生剪切作用在多种环境下
学位
缺血性脑卒中是指由于多种原因导致脑部血流供应不足,神经元及胶质细胞死亡,使局部脑组织发生缺血缺氧性坏死,引发脑组织永久性梗死。缺血性脑卒中具有高患病率、高复发率、高致残率和高致死率的特点。医学研究领域一直专注于治疗缺血性脑卒中新型药物的研究,但研究结果并不理想。HOPA化合物是本课题组自主合成的新型药物,具有血氧调节功能,为治疗缺血性脑卒中提供了一种有效的先导化合物。本研究选取线栓法建立小鼠脑缺血
学位
无线传感器网络(Wireless Sensor Networks,WSN)作为物联网感知层的核心,实现了信息世界与物理世界的融合。目前,为了提高WSN节点利用率及采集数据的完整性,大多数的WSN节点被配置了多个传感器。然而,由于低成本的WSN节点在计算、通信、存储方面受限,导致数据采集冗余度高,数据采集效率低下,且WSN节点很难为采集的密集型数据提供计算及存储资源。传感云通过强大的云服务器扩展了
学位
慢性术后疼痛给患者带来躯体和精神上的负担,其临床治疗仍是目前临床中所面临的难题。阿片类药物虽具有显著有效的镇痛作用,但严重副作用限制了其在慢性疼痛中的应用。疼痛和抑郁的调控从神经功能系统上关系密切,抗抑郁类药物在临床中可作为镇痛药物,其中5-羟色胺-去甲肾上腺素再摄取抑制剂(Serotonin and Norepinephrine Reuptake Inhibitor,SNRIs)为主要药物之一。
学位
研究背景:泡型包虫病(Alveolar Echinococcosis,AE)是由多房棘球绦虫(Echinococcus multilocularis,E.multilocularis)中绦期幼虫-泡球蚴,感染引起的一种人畜共患寄生虫病,在肝脏中呈现类肿瘤样浸润生长,故又称之为“虫癌”。泡球蚴在宿主体内诱导的Th1免疫应答利于机体抗虫,然而在AE慢性期免疫应答呈Th2/Treg(Regulatory
学位
有机发光二极管(Organic Light-Emitting Diode,OLED),在显示与照明等应用领域中具有着重要应用价值。OLED材料因为其制造工序简单、成本低、电压低、耗电量小、亮度高、屏幕轻薄、柔韧性较好、发光材料的分子结构简单且发光颜色易于调整等优点,引起了科学界和工业界的普遍重视。有机硅材料则是把有机组分与无机硅氧烷混合成为单一的有机-无机杂化材料,因为具有优异的溶解性、化学和热稳
学位
在OLED(Organic Light-Emitting Diode)快速发展的时代,因为有机发光材料拥有种类繁多,可调性好,色彩丰富,分子设计相对比较灵活等多种优点,对于有机发光材料的研究越来越受到人们的高度重视。功能化分子修饰香豆素作为有机小分子发光材料,其荧光效率高,易于合成,稳定性好等特点被广泛关注。在香豆素骨架的3-位和7-位进行修饰,从而使化合物光电性质发生变化,使它们能广泛应用于光学
学位
发展新能源汽车已成为国家战略,NdFeB磁体是电动汽车驱动电机关键材料,但高速、重载等苛刻工况发热易使磁体不可逆退磁,导致电机性能劣化。添加高含量重稀土可有效提高NdFeB磁体性能,但会大量消耗重稀土资源且磁材成本大幅上升,所以如何降低重稀土用量已成为国内外研发的热点和重点,而重稀土晶界扩散工艺可以有效改善NdFeB磁体的热稳定性,大幅提升磁体矫顽力,同时减少重稀土用量,节约资源。因此,本文采用磁
学位
有机发光二极管是新一代的显示技术,相比于传统的液晶等显示技术而言,有着更强的竞争能力。在有机发光二极管中,发光层扮演着至关重要的角色,不断有新理论和新工艺被开发出来改善器件的性能。因此,开发出新型高效的发光材料是有机发光二极管研究领域中的重要方向。本文介绍了一系列咔唑/咪唑功能化的2-(2′-苯酚)苯并噻唑(BTZ)配体及其二氟硼配合物的合成和发光性质,并将其作为发光材料应用到电致发光器件中。具体
学位
太阳能具有储量巨大、清洁环保的特点,高效的开发利用太阳能对解决能源危机具有重要意义。作为光热转化利用系统的重要组件,光热转换涂层性能的优劣直接决定整个系统的光热转换效率。因此,开发工艺简单、具有成本优势的高性能光热转换涂层,是光热转化利用技术领域中十分重要的研究课题。本文基于Me-MeNx和Me-MeOx(Me=Al或W)基光热转换吸收涂层光谱选择性易调控、结构扩展性好的特征,开展了Me-MeNx
学位