论文部分内容阅读
互联网的跨越式发展,使得流媒体服务的获得越来越便捷,让用户能够随时随地观看在线视频。但随着用户需求的变化,用户己经不满足于观看视频这一基本功能,更希望能够在观看视频的过程中表达自己的情绪和建议。而传统的点“赞”、点“踩”和撰写评论等手段,难以实现用户在观影过程中情绪表达和同伴沟通的目标。近年来,一种面向视频的新交互行为(又称“屏显评论”或“弹幕”)流行起来。弹幕是一种由用户撰写、与视频放映时间相关、实时显示在视频屏幕上的一种评论,这种评论与视频的情节和放映时间实时相关。同时,用户通过弹幕能够实时地与其他用户沟通和交流观影感受。除此之外,视频制作方能够通过弹幕这种新型的交互行为了解到用户对视频各个片段的情绪和建议,进而针对性地改进后续制作的视频。目前,几乎所有的国内视频网站(爱奇艺、腾讯等)都采用了弹幕功能。这种新型的用户与视频交互行为具有一些新的特性(如多峰、羊群效应)和广大的实际应用价值。同时,它所具有的新特性也给实际的研究带来了新挑战,如使得视频流行度的预测具有了更多不确定性。但相较于在工业界的广泛流行,针对弹幕这种新交互行为的学术研究刚刚起步,目前为止还没有基于数据驱动视角的相关研究。基于以上背景,本文提出利用数据挖掘技术,结合心理学、商学等交叉学科知识,设计建模方法,实现对在线视频弹幕数据的全面理解。本文主要工作概括如下:首先,对弹幕数据的新特性进行系统分析与量化建模。这种新的用户与视频交互方式具有巨大的学术研究与商业应用价值,但还没有相关工作对弹幕的新特性进行深入分析。鉴于此,本文从不同的角度对弹幕的特性进行刻画:第一,对比了弹幕与传统评论的差异性;第二,设计了弹幕羊群效应的量化模型;第三,设计了弹幕多峰现象的检测模型;第四,设计了关键弹幕的识别模型;最后,分别构建了弹幕在视频和视频片段上的增长趋势模型。真实数据集上的实验结果验证了所提方法的有效性。其次,针对具有弹幕功能的在线视频流行度预测的不确定性问题,提出了多因子流行度概率预测模型。相比于传统的在线视频,具有弹幕功能的视频所蕴含的新特性,使得此类视频流行度的预测具有更大的不确定性。鉴于此,本文提出了多因子融合的流行度概率预测模型。具体而言,先从热门视频、热门屏显评论、最新上传视频三个维度构建了羊群影响因子,随后构建了上传视频用户影响因子和视频质量影响因子,最后提出了一个融合以上三个影响因子的流行度概率预测模型。实验结果表明了本文所提出的模型能够准确地预测具有弹幕功能的在线视频流行度。最后,利用弹幕的关键特性,构建了针对大规模图像分类问题的深度混合模型。相比于传统评论,弹幕评论所具有的视频实时相关性、丰富的主观(开心、愤怒等)和客观(物体、演员等)语义信息等关键特性,可用于给弹幕相关联的帧(图像)打标签(分类)。然而每一个在线视频网站包含的视频规模异常巨大,从视频中所抽取的图像规模也是成百上千万,对分类算法的性能和效能带来了巨大挑战。为了更深入地研究这个问题,将此问题一般化,即如何对大规模的图像进行分类。鉴于此,本文提出了一个用于大规模图像分类的深度混合模型。首先根据图像类别的语义相关性,提出了模糊谱聚类算法,用于构建一个两层(图像类别层和任务组层)的本体树。随后,基于构建的本体树,每一个任务组分配一个基础卷积神经网路。通过本体树中的任务组可以使得具有相同学习复杂度的图像类别被分配到同一个基础卷积神经网络中,确保了基础卷积神经网络之间的可分性。最后,设计了一个门网络用来融合各个基础卷积神经网络的输出以生成最终的分类结果。实验表明,与基准算法相比,提出的深度融合模型在大规模图像分类上有着优异表现。