非负矩阵分解及其在中文文本挖掘中的应用

来源 :国防科技大学 | 被引量 : 13次 | 上传用户:hellosunday
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
非负矩阵分解(Non-negative Matrix Factorization,简称NMF)方法是一种新的降维方法,该方法具有可解释性、直观上的“局部构成整体”等特性,有着广泛的应用前景。本文针对NMF方法的初始化问题及其在中文文本挖掘中的应用,主要研究内容有:1、分析总结了NMF方法的理论体系对NMF方法的产生、发展过程、解析性质等方面的内容进行了研究,总结了该方法目前需要研究和解决的问题。研究分析了NMF方法解的存在性、唯一性、收敛性、稳定性问题。2、提出三种初始化方法针对NMF方法存在的初始化问题,提出三种初始化方法:PCA、有监督PCA和模糊平均聚类。讨论了三种初始化方法的理论,对其在具体使用过程中的技巧进行了说明和论证,解决了PCA、SPCA的大矩阵分解问题。多类文本分类的实验结果显示,与随机初始化方法相比,三种方法都不同程度的提高了分类效果、增强了结果的稳定性,其中SPCA方法要优于其它初始化方法。3、提出了新的文本特征选择方法一改进互信息方法对中文文本挖掘的一般处理过程和特征选择方法问题进行了深入研究。提出新的特征选择方法,实验结果显示,与传统方法相比,本文提出的方法有较小的计算复杂度和好的分类效果。4、将NMF方法成功应用于中文文本挖掘中将NMF方法与文本挖掘过程中其它几个常用的降维方法,随机投影、概念索引、潜在语意索引方法,进行实验对比。实验结果显示,使用了初始化方法的NMF方法具有计算速度快;分类结果准确度高、稳定性好;便于处理大规模文本数据等优点。在网络资源搜索中的搜索结果聚类问题中,与传统的Lingo算法相比,NMF方法在类别标签的确定过程中避免了由抽象概念到候选概念的转化,从而更直接更方便,这充分利用了该方法的非负性和可解释性。
其他文献
本文采用线弹簧模型和权函数相结合的方法,研究了工程实际中广泛应用的焊接结构的表面裂纹断裂问题。主要工作和成果包括:1、在现有线弹簧模型理论研究的基础上,本文利用权函数实现了非线性分布的焊接残余应力向线性分布的转化,从而解决了非线性应力在线弹簧模型中应用问题,为全文工作奠定了理论基础。2、建立了焊接平板单一表面裂纹的线弹簧模型。基于Reissner板理论和连续分布位错思想,通过积分变换方法,推导了问
数据建模分析的目标是通过分析已有数据的规律,从而实现对未知数据的预测。数据中变量间的多重相关性和数据本身的复杂性,是导致各种算法预测精度不高的主要因素。偏最小二乘是一种新型回归分析方法,它通过对数据信息的综合与筛选,可以有效克服变量间的相关性,并且可以在样本数少于变量数的情况下有效建模。利用偏最小二乘回归优良的建模能力,结合变量筛选技术,文中提出了一种“基于偏最小二乘的向后删除变量法”。实验结果表
周期结构广泛存在于工程领域中,其振动控制问题一直是工程技术中迫切需要解决的问题之一。经过特殊设计的周期结构可以存在振动带隙,带隙频率范围内的弹性波不能传播;特定通带频率范围内的振动在二维周期结构中的传播存在方向性。周期结构的这种传播特性将会为结构振动控制提供一种新的技术途径。本文围绕工程中广泛应用的周期梁结构和周期栅格结构的弯曲振动模式,通过理论分析、有限元仿真和实验验证相结合的研究方法,对其振动
爆炸电子发射阴极是高功率微波系统的关键器件,对微波输出功率和微波脉宽有着重要影响,而阴极等离子体决定了强流电子束的提取。因此本文围绕阴极等离子体膨胀速度、阴极表面损伤进行了理论和实验研究,同时研究了阴极等离子体膨胀速度对二极管阻抗变化的影响。实验分析了爆炸电子发射阴极在电子发射后的表面损伤情况,结果表明不锈钢阴极的发射机制是爆炸电子发射,而对于天鹅绒和碳纤维阴极,在爆炸电子发射的同时伴随有表面闪络
本文主要讨论了矩阵不等式的性质和应用.一方面,建立了四元数矩阵数值特征的几个重要不等式,从而将复矩阵相应不等式进行了推广.另一方面,得到了在一类线性系统中,特殊分块矩阵的范数对解的范围的控制.具体内容包括:1.通过研究复矩阵的特征值不等式,获取了四元数矩阵的Wielandt不等式、Kantorwich不等式、以及相应的迹不等式,2.通过分析四元数矩阵条件数的性质,给出了分块形式下的条件数估计,3.
本文主要介绍了钝感炸药的冲击起爆过程化学反应速率以及超压爆轰产物状态本构关系。首先研究了钝感炸药冲击起爆的机理,对国内外描述钝感炸药起爆过程中各种化学反应率的唯象模型进行了概括。并以一种典型的钝感炸药PBX-9502为例,利用稳态爆轰波的定常条件,结合爆轰反应区中的实验质速史,提出了一种对定常爆轰反应区流场进行拉格朗日分析的方法,并依据该方法的结果确定出一种高压反应速率方程的形式。再将之与Kim提
本文对四元数矩阵方程的可解性作了一些研究,给出了几类四元数矩阵方程的可解性条件.对于四元数矩阵方程AX-XB=C,在已有结果基础上给出了一些推论.比如:设四元数矩阵方程AX-XB=C有唯一解,C是可逆矩阵,且ACBC-1=CBC-1A,则方程有可逆矩阵解的充要条件是AC-CB是可逆阵.可逆矩阵解存在时,其复表示为xX=xC(xAxC-xCxB)-1xC.关于四元数矩阵方程AX-XJB=C,XJ=-
本文研究并扩展了局部线性嵌入算法。局部线性嵌入算法是近年来提出的一种新颖高效的无监督的非线性降维技术,它能在良好地保持数据的局部几何结构和关系的情况下将高维数据投影到低维空间。算法的主要优点是易于执行、只需设置很少的参数并且是一种非迭代的算法,能避免陷入局部最小值。但是算法仍然存在很多需要完善和扩展的地方,比如:在数据中存在离群点的情况下如何使得算法更加稳健;在模式分类中算法如何与标签信息相结合来
本论文对炸药爆轰及水下爆炸的光滑粒子流体动力学(SPH)数值模拟方法进行了理论研究、程序设计和算例分析,主要工作和研究成果如下:1.调研了大量SPH方法的相关文献,掌握了SPH方法的基本理论和数值模拟程序的设计方法,并通过大量的程序实践,对SPH数值计算相关问题、SPH方法在应用中存在的缺陷和不足以及SPH方法的研究进展和发展趋势有了较好的了解;2.调研了炸药爆轰及水下爆炸方面的相关文献,对于炸药
高功率快放型锂离子电池是目前锂离子电池领域研究的重点方向之一.为了获得具有高功率密度的锂离子电池,正极材料须具有较高的电压和较高的电子与离子导电率,正极材料主要包括高电压钴酸锂、镍锰酸锂和高电压三元材料,负极材料包括碳系材料、钛基材料和金属氧化物材料,以及为提高首效和降低负极电位而采用的预嵌锂方法,并对锂离子电池电解液用锂盐、溶剂和添加剂进行了综述.最终总结了功率密度测试方法,并对高功率锂离子电池