【摘 要】
:
在机器学习中,K折交叉验证方法常常通过把数据分成多个训练集和测试集来进行模型评估与选择,然而其折数K的选择一直是一个公开的问题。注意到上述交叉验证数据划分的一个前提
【机 构】
:
山西大学数学科学学院,山西大学现代教育技术学院,山西大学软件学院
【基金项目】
:
山西省应用基础项目研究计划(201901D111034,201801D211002),国家自然科学基金资助项目(61806115)
论文部分内容阅读
在机器学习中,K折交叉验证方法常常通过把数据分成多个训练集和测试集来进行模型评估与选择,然而其折数K的选择一直是一个公开的问题。注意到上述交叉验证数据划分的一个前提假定是训练集和测试集的分布一致,但是实际数据划分中,往往不是这样。因此,可以通过度量训练集和测试集的分布一致性来进行K折交叉验证折数K的选择。直观地,KL(Kullback-Leibler)距离是一种合适的度量方法,因为它度量了两个分布之间的差异。然而直接基于KL距离进行K的选择时,从多个数据实验结果发现随着K的增加KL距离也在增大,显然这是不
其他文献
利用涡流的时域扩散特性,瞬变电磁技术已广泛应用于井下探测领域。然而,测试过程中井下温度的变化会使探头的磁导率发生变化,导致测试曲线的基线产生漂移,严重影响套管损伤检
河南黄河河务局和河南省林业厅目前签署其建沿黄生态涵养带合作框架协议。计划在5至10年内把沿黄两岸建成一各绿色生态走廊,为中原经济区建设构筑良好的生态屏障。
股价预测是投资策略形成和风险管理模型发展的基础。为了降低股价变化趋势中的噪声信息和投资者关于两种股价预测误差的不同偏好对股价预测的影响,提出了基于信噪比的模糊近
[目的/意义]从政策法规的角度,调查荷兰政府开放数据的政策支持和法律保障,为我国政府开放数据提供参考。[方法/过程]利用文献调研和网络调研的研究方法,以荷兰为例,通过对文
人类社会是在同大自然的斗争中诞生和发展起来的。随着人口的不断增长,生产力的不断发展,工业化和现代化程度的不断提高,人类向大自然索取的越来越多,对生态环境的破坏也就越