基于机器学习的电影票房分析的研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:echoofstar
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
票房作为衡量电影能否盈利的重要指标,受诸多因素共同作用影响且其影响机制较为复杂,电影票房的准确预测是比较有难度的。目前电影票房预测的研究存在依赖社会媒体舆论信息、影人价值量化方式单一、没有挖掘影人合作关系价值等不足。尤其如果要在电影上映前给出预测,基于社会媒体评论和舆论热度的票房预测方法难以应用。本文提出了一种基于 GBRT(Gradient Boosting Regression Tree)和关系网络的电影票房预测模型,首先将影响电影票房的因素如电影类型、上映档期、导演、演员等量化处理作为输入,训练梯度提升树模型,在此基础上还通过关系网络的方式挖掘影人之间的合作关系并量化为节点影响力作为预测的输入之一,将关系型数据和图这一非关系型数据结合起来作为特征建立预测模型并取得较高的准确率。同时为有效展示本文研究的电影票房分析数据、方便用户使用,开发了一个简洁高效的web电影数据分析系统,提供数据分析服务。本文针对2000-2019年间的3000部以上电影以及相应的27367名影人和5900家公司建立数据集并进行实验,实验结果表明本模型具有较好的预测效果,对于票房10亿左右的国内影片表现出较高的预测准确率,测试集上预测平均相对误差为31.49%,本文的研究工作为电影与影人的市场价值分析、电影映前票房预测方法和web电影数据分析系统开发提供了 一定的参考。
其他文献
随着5G网络、物联网的普及应用,无人机、无人驾驶车等新设备的出现,促进了定位技术的广泛研究。其中,基于视距场景下时延与距离线性关系的无线定位技术以其精度高、计算复杂度低、方便部署等优点而被广泛应用。但实际环境中多径和NLOS(non line-of-sight)误差的广泛存在,为时延估计和定位算法都带来了挑战。为了解决多径干扰以及传统时延估计方法精度受限于采样率的问题,针对最大似然时延估计法,本文
随着社会的高速发展,物联网、大数据等技术的不断升级,信息化得到越来越多企业的高度重视,然而在信息量呈指数增长的同时,基础数据的统一、完善显得尤为重要,因此越来越多的企业开始进行主数据治理和主数据系统项目。论文以X公司主数据系统项目为研究背景,结合项目风险管理的理论体系,在国内外风险管理研究的基础上,进行主数据系统项目的风险管理研究,主要内容有:一、简述论文研究的实际项目,即X公司主数据系统项目的项
如今正是互联网高速发展的时代,各项互联网技术层出不穷。物联网技术建立物体与互联网的联系,AI技术促进生活的智能化,大数据技术挖掘数据更深层次的价值。这些技术也标志着未来是“互联网+”的时代[1-2]。因此,新时代下信息的传递显得尤为重要,需要建立在一个稳定可靠的通信系统上。而光纤通信系统无疑能够很好地适用于这些场景。得益于光通信频带宽、损耗低、抗电磁干扰等特点,未来的通信网络发展方向必定是大容量、
网络异常流量检测是抵御恶意攻击、保护网络可用性和隐私安全的重要手段,对于维护网络安全有着至关重要的作用;而基于流量分类的方法是网络异常流量检测任务中的重要方法之一。近年来,基于表征学习的流量分类方法由于无需人为提取特征、检测速度快且在特定环境下表现优异,因此受到了研究者的广泛关注。但是在部署基于表征学习的异常流量监测模型时,单一网络域内面临着数据不足、标注能力不够、难以检测未见过的异常流量、且原始
学位
随着当代互联网技术的不断革新,越来越多的单位使用互联网软件传输机密数据。互联网应用的不断深入和扩展,也为计算机网络带来越来越多的安全隐患。本系统旨在设计并实现匿名、安全的文件传输管理系统,为用户提供好友管理、群组管理、匿名聊天、文件传输等功能。在Tor(The Onion Router,洋葱路由器)网络中,用户借助匿名通信技术,多层加密通信数据,让流量监控无法嗅探到用户数据和用户身份信息,维护文件
相较于传统的在远端云中心进行数据处理的方式,移动边缘计算(Mobile Edge Computing,MEC)通过将计算和存储能力下沉到网络边缘,提供了高带宽低时延的网络环境,从而能够提高时延敏感业务的服务质量。作为MEC的关键使能技术之一,网络功能虚拟化(Network Function Virtualization,NFV)支持将网络功能与底层硬件资源解耦,在统一的物理基础架构之上配置虚拟网络
由于无线通信设备的增长和网络技术的发展,对频率的需求不断增长。为了在有限的频率资源环境中有效地共享频率,应该进行研究以开发频谱共享技术。传统的频谱共享研究依靠中央机构来验证每个频谱共享交易的真实性,缺少安全的频谱共享机制,这容易受到众多的安全威胁。其次,通过频谱感知,或频谱数据库进行的传统频谱共享机制使用效率并不是很高。最后,由于同频道干扰和其他干扰,自私且理性的频谱所有者不愿在没有适当经济补偿的
近年来,互联网技术快速发展,各类信息剧增,互联网上每天有海量信息在生成、传播和存储。作为人的标识之一的人名,在互联网检索中有非常重要的意义。但由于人口巨多,人名数量巨大,使得进行人物相关文章的搜索时,重名现象严重,搜索引擎不能达到预期的效果,返回的内容中包含大量噪声信息,需要用户去进一步的识别、筛选,这就使用户检索信息的难度大大增加。因此如何设计一个系统,能高效识别人物,消除人名歧义,节省用户搜索
随着工业互联网的发展,带来终端传感设备数量激增,传输与存储的数据呈现爆炸式增长,企业、机构通过数据挖掘能够进行一系列的分析、预测,但传感数据普遍存在数据质量高低不齐的现象,若直接使用,将造成信息的误判,经济、时间等损失。因此应找到一种合适的数据质量评估方法,对数据质量进行评估,让后续的分析、预测等操作有一个良好的数据质量保障。本文研究了数据质量评估的主流方法,重点分析了基于机器学习的数据质量评估法