论文部分内容阅读
研究目的:随着2022年北京冬奥会的成功申办与"3亿人上冰雪"口号的提出,冰球作为一项兼具速度与力量的团队运动,以其独特的魅力使得越来越多的人前来感受它的热血与激情。现代团体运动以及数据采集技术的不断发展,数据驱动的团体运动表现分析作为一个新兴产业已经成为了提升团队竞技能力、运动成绩以及运动伤病预防的有效手段,并且对体育相关产业产生深刻的影响。面对"冰球热"的持续升温,大众对于冰球比赛的关注度大幅提升,对于冰球比赛结果的预测也越来越多。比赛结果预测是体育数据分析中的重要内容,能够帮助运动员和教练员了解影响比赛的关键指标,为评价运动表现提供依据。当前,在足球、篮球、排球等团体运动项目中已经开展了广泛的研究,但对于普及度较低的冰球比赛运动结果预测的研究相对较少。为了更好地预测冰球比赛胜负的规律,我们想要通过对大量的冰球比赛数据进行采集和筛选,训练并建立多种冰球比赛结果预测的机器学习模型,运用模型对比赛结果进行预测,综合比较各个模型对于预测冰球比赛结果的准确性,从而找到基于球队层面的最佳预测模型。通过在比赛中有效地预测一场冰球比赛的胜负结果,吸引更多的人关注到冰球运动,从而使得冰球项目的文化和知识得以更加广泛地传播。研究方法:本研究以NHL官网2016—2019年三个赛季的258场季后赛中所有参赛球队的比赛统计数据为研究对象。通过计算皮尔逊相关系数对官网中比赛表现指标进行筛选,去除无关和冗余的特征,综合分析得出最佳特征子集。建立决策树、K最近邻分类算法、支持向量机、朴素贝叶斯4种机器学习模型对比赛结果进行预测。最后使用准确率、精确率、召回率、F1-score、混淆矩阵、Kappa系数、ROC曲线与AUC对模型预测效果进行评价。研究结果:最终各个模型在测试集上的预测结果都呈现出极好的预测效果,其中,采用高斯核函数和线性核函数的SVM模型在分类的准确率上已经达到100%,决策树模型也高达99%,其余三个模型的准确率相比较低,均在89%以上。其中进球数(GF)、阻挡数(GA)、场均进球数(GF/GP)、场均阻挡数(GA/GP)4项指标在较高程度上可以影响比赛结果,常规赛胜场数(RW)、多打少百分比(PP%)、罚球百分比(PK%)、净多打少百分比(Net PP%)、净罚球百分比(Net PK%)5项指标对比赛结果也均有重要影响。研究结论:根据先前所进行的文献调研可知,其他团体运动中比赛结果的预测准确率不会很高,即使冰球在之前的比赛结果预测已经达到90%,但最高也不会超过95%。而我们的预测结果均取得极高的准确率,甚至可以达到100%,对此我们对此进行分析。首先,在特征选取的角度上我们针对研究目标,并且考虑到篮球、足球等其他团队比赛更替场上队员必须在停哨之后才被允许,冰球比赛因为高强度无氧的原因,除几种特殊的情况外在比赛进行中可以频繁更替场上队员。因此特征集合经过预处理后仅包含9个指标,相较于其他研究学者进行预测时所使用的特征来说,我们选取的特征属性在数量上较少,可能导致模型训练中误差增大。其次,对于我们经过预处理后选择的9个特征属性,其中属性之间有较高的相关性,GF与GF/GP,GA与GA/GP之间的线性相关度均为1,将它们共同作为特征属性对模型进行训练,可能潜在地使模型对这两类指标增加了权重。我们从特征参数的意义上对指标GF、GA进行解读,GF为进球数,GA为阻挡数,在冰球比赛中使用球队层面的数据对比赛进行预测,GF与GA的取值可以占较大比重地决定一场比赛的胜负,对此,我们仅使用GF、GF/GP、GA和GA/GP这四项指标使用各个模型在训练集上进行预测。我们发现使用这四个指标构成的特征子集对模型训练后在测试集上的预测结果,除朴素贝叶斯模型其他模型的准确率、精确率、召回率、F1-score和Kappa系数五项指标得分均为满分,验证了我们的猜想。我们去除GF、GF/GP、GA和GA/GP四项可能直接影响比赛结果的指标后,使用RW、PP%、PK%、NetPP%、NetPK%五项指标形成的特征子集训练模型。根据预测结果显示,我们发现各个模型的准确度相差较小,结合F1-score我们得出采用高斯核函数的SVM模型和朴素贝叶斯的模型性能相比其他模型较高,具有高度的一致性,其余模型分类精度较低,且KNN模型的预测效果最低。另外,我们通过观察数据集,GF、GF/GP、GA、GA/GP、PK%、Net PK%这几项指标的具体取值集中在有限的3-5个数值,RW、PP%、Net PP%这三个指标的数据呈现出稀疏性,适度的稀疏性可以降低训练的复杂度,但多个稀疏特征以及数据值取值有限的特征形成的特征子集均可能对模型的训练和预测产生不利的影响。