【摘 要】
:
在图像、文本等众多研究领域中,如何对多维观测数据进行良好地表达是很重要的问题。好的方法一般具备两种特性:实现数据维度的约减以及数据潜在结构的挖掘。相比于经典的线性变换方法,非负矩阵分解由于纯加性与稀疏性的描述更具物理意义而在现实场景下受到广泛应用。然而,该算法虽然能够实现数据有效压缩并良好表达关键信息,但多数情况下这些关键信息不可预知,模型灵活性和分解效率很大程度上受到影响。另外,算法旨在反应原始
论文部分内容阅读
在图像、文本等众多研究领域中,如何对多维观测数据进行良好地表达是很重要的问题。好的方法一般具备两种特性:实现数据维度的约减以及数据潜在结构的挖掘。相比于经典的线性变换方法,非负矩阵分解由于纯加性与稀疏性的描述更具物理意义而在现实场景下受到广泛应用。然而,该算法虽然能够实现数据有效压缩并良好表达关键信息,但多数情况下这些关键信息不可预知,模型灵活性和分解效率很大程度上受到影响。另外,算法旨在反应原始数据的某种流行特征或几何结构,实际上分解后的基矩阵中关键向量构成的空间与“类”的概念有一些相似之处,这在聚类等学习任务中起重要作用。因此如何在矩阵分解中对这些关键信息进行有效利用值得探讨。本文的研究工作分别基于隐特征提取与聚类信息发掘对经典非负矩阵分解算法提出了以下两方面的改进:针对关键特征信息无法事先预知导致分解算法性能效率不高的问题,本文从概率角度出发,借助隐特征模型Indian Buffet Process,利用其生成的有限维行无限维列二进制矩阵上的先验分布结果,提出一种新的指数高斯模型,将非负矩阵分解为带有{0,1}约束的低秩编码矩阵和非负字典矩阵。并通过变分贝叶斯方法推理求得两者真实后验,自动学习隐含特征的数量及信息。分解后编码矩阵中的0与1值反映观察对象对特征的占有情况,很好地避免初始秩设置的问题。同时在合成数据集以及Swimmer dataset、Cora文档及CBCL dataset等三个真实数据集上的对比实验均表明该方法在隐特征提取任务上的有效性。针对非负矩阵分解基矩阵类间信息无法获得有效利用问题,本文基于图正则化分解框架,利用正则项使得权重向量保持数据潜在流行结构的同时,借鉴鲁棒连续估计聚类算法思想构建近邻网络,获取样本连接点对间权重信息,将基矩阵类间信息最大化一同引入目标函数作为有益补充。该方法利用迭代更新后的分解结果矩阵重构连通图,实现类簇再分配并对属于同一聚类簇的信息进行合并。最后基于合成数据集与真实数据集将本文提出的中心化方法与经典聚类算法做聚类效果对比验证,通过实验及t-SNE可视化效果可知本文方法在聚类精度上有一定程度提升,且较好地消除了原始聚类簇间界限不明显的问题。
其他文献
本文针对一辆带有电控机械式自动变速器(AMT)的插电式并联混合动力汽车(PHEV),建立了三种基于机器学习算法的车速预测模型,能量优化框架则选择模型预测控制(MPC)算法,采用庞特里亚金极小值原理(PMP)作为求解算法,进行了考虑电池温度影响的多目标能量管理优化,具体研究内容如下:首先,基于Autonomie数据库,本文建立了并联式PHEV动力系统主要部件的数学模型:发动机、电动机、电池和传动装置
分布式光伏电站建设相对独立,不受其他电站的制约,且易于扩建,并网手段相较于集中式光伏电站更为简易,在新增光伏装机总容量中占有越来越高的比例。但目前还存在系统输出不稳定、功率调节有限等问题。因此,本文针对分布式光伏发电存在的相关问题,结合福建省厦门市太阳能资源分布状况,开展了装机容量为21MW的分布式光伏发电站系统的设计,主要研究内容如下:(1)开展了华电厦工的21 MW分布式光伏发电系统的设计。项
2型糖尿病(T2DM)是以胰岛素抵抗、高糖、高脂肪酸为显著特征的代谢疾病之一。近年来,糖尿病的发病率呈逐年攀升趋势,且与脂肪性肝病存在密切联系。非酒精脂肪性肝病(NAFLD)指除酒精因素外以肝损伤、肝脂肪变性和脂质代谢紊乱等为特征的疾病,主要因肝脏长期或反复处于高糖、高脂肪酸的环境下造成。脂肪性肝病、糖尿病均是代谢异常综合性疾病,其病因及病机之间也存在很多共同点。目前尚无可用于临床防治T2DM或N
随着5G等高新科技的出现,新一代移动智能终端朝着更能满足人机交互的可穿戴智能设备方向发展。对于智能设备而言,其能源系统应满足体积小、柔性高、容量大、输出稳定等要求。锂硫电池作为一种价格低廉,环境友好的二次电池,拥有较大的理论能量密度(2500 Wh/kg),十分契合智能设备对于能源系统的要求。由于锂硫电池的纤维化以及“穿梭效应”等问题,目前对于锂硫电池小型化、柔性化的研究主要集中在平面结构上,对于
神经义肢技术的问题是在神经科学发展应用中凸显的具有较多伦理争议的问题。由于该技术研究的对象是人类大脑,大脑本身就具有复杂性和特殊性,各种难治性的神经系统疾病迫切需要新的医疗技术,所以神经义肢技术的发展成为了各个行业学者和专家关注的前沿科技。该技术应用的目的是为了治疗神经和精神功能障碍,它通过电刺激肌源性区域、外周和中枢神经系统来恢复或代替受损的神经系统、感觉器官或断肢,帮助其它治疗措施无效的患者治
我国的财政收入主要依靠税收手段,不同行业不同企业所缴纳的税收比重各不相同,因此税收给企业带来了不可忽略的压力与负担。尽管国家出台了税收优惠政策,但是企业仍需承担一定的税费,导致资金流出,企业留存收益降低,这对于那些存在资金缺口融资困难的企业来说更是雪上加霜。因此,企业存在利用税收优惠政策进行避税的动机,以减轻自己的税负。这样一来,可能会给企业的投资行为和投资效率带来影响。随着经济全球化的不断发展以
受技术瓶颈与设备成本的制约,完全自动驾驶很难在短期内实现,人机共驾阶段将在未来持续很长一段时间。人机共驾模式下,车道保持辅助系统能够有效减少交通事故以及缓解驾驶人的操作负荷。但在复杂的交通环境中,由于驾驶人的驾驶习性多样化,常规车道保持辅助系统总是沿着车道中心线行驶,与真实人类驾驶体验有明显不同,比如在弯道场景中部分驾驶人会更倾向于沿着弯道内侧行驶,否则会产生不安全感,导致驾驶人的精神负荷增加。论
全降解血管内支架可在完成血流重建后被机体降解吸收恢复血管舒缩,良好的血管修复潜力使其具有广阔的应用前景。老年人是心血管疾病主要的患病群体,血管老化是最主要的增龄性改变,血管随之产生一系列疾病易感环境,如高炎症基础、内皮功能障碍、血管硬化等。另一方面,由于全降解支架的可降解活性,在与血管相互作用的复杂过程中,较传统的惰性金属支架材料有显著的区别。主要在于支架降解过程中的血流动力学和血管的生物学改变,
随着制造业朝自动化方向的发展,机器视觉技术凭借非接触、低成本、高效率的特点逐渐取代了传统的机械定位技术。在生产线完成的高质量产品的制造生产、测量检测、分拣分类都离不开图像匹配。形状匹配作为图像匹配中最适合对工件进行识别定位的技术,一直都是机器视觉相关研究中的关键问题。本文提出了一种基于图像形状轮廓点梯度的匹配算法来解决工业生产中的实时工件定位问题。针对传统形状匹配算法搜索效率低下的问题,提出了改进
活性氧自由基(Ractive oxide species,ROS)是含氧自由基的总称,这些自由基高度不稳定且十分活跃,在细胞信号传导中起着重要作用。但是,过量的ROS会不可逆地破坏细胞和生物分子,进一步导致炎症反应发生。从体外摄取抗氧化剂以维持体内氧化还原稳态和ROS基础水平,是避免过量ROS累积的有效方法。然而常规的抗氧化剂面临较多问题,例如体内安全性较差、在体内无法降解以及构建抗氧化剂载体的复