论文部分内容阅读
影视产业作为我国国民经济体系中新的突破口,广受影视市场主导人员、电台运营商、各大视频网站运营机构以及一些科研学者的关注。面对大数据时代的到来,影视行业的数据存储、处理和分析等多个方面也面临着巨大的挑战,传统的数据存储模式、数据处理方法和数据分析技术将无法满足拥有海量数据的应用需求。随着数理统计理论及人工智能等诸多领域的不断发展,基于机器学习的理论体系逐渐构建起来,人们试图应用机器学习方法去对海量数据进行处理分析,以期从中提取出有用的知识和信息。因此,研究如何运用机器学习方法从海量影视大数据中挖掘出数据背后隐藏的特征和波动趋势,是具有重大的现实指导意义的。本文主要是利用机器学习方法来对影视大数据进行处理与分析,同时结合智能影视大数据分析系统对海量的电视剧收视相关数据先后进行预处理、特征降维、图表分析与收视预测,其增加了数据处理的效率和收视预测的准确性。因此,通过机器学习方法来解决影视大数据场景中的问题具有重要的意义,其给予了研究人员有效的应用思路,也为影视企业赢取最终市场并获得更高收视率创造了可能。本文的主要工作如下:[1]基于K-Means聚类算法对高维影视数据进行预处理。其针对筛选出的电视剧样本数据进行属性选择、数据聚集和数据规范化,最后利用K-Means算法对数据进行补全操作。[2]基于因子分析法对高维影视数据进行降维处理。其针对高冗余、高维度的电视剧特征数据,运用因子分析法来获得低维的冗余性小的影响因子作为降维后的特征向量。[3]基于SVM算法和AdaBoost-BP算法对电视剧收视水平和收视率进行分类与预测。其使用降维后的电视剧特征数据,运用SVM算法和AdaBoost-BP算法来建立收视预测模型。之后对相关数据进行预测分析。最后对比分析预测效果,总结出更具有效性的预测算法。[4]基于智能影视大数据分析系统对收视进行分析与展示。其针对处理后的电视剧收视相关数据,多层次多角度地进行图表关联分析与直观展示,并把文中提出的预测模型运用到影视大数据收视预测中,验证了其有效性。