论文部分内容阅读
由于互联网和智能移动设备的快速发展,在过去的二十年间产生了大量的数据,其中以视频为代表的多媒体数据占据了这些数据的绝大部分。根据Youtube视频平台2016年的统计数据显示,Youtube每分钟接收到的用户上传量,已经达到了 300小时的播放时长,思科在2015-2020年消费者互联网流量报告中指出,互联网视频流量以及视频下载开始占用更大的带宽份额,到2020年将增长到所有互联网消费者使用流量的80%以上。为了能够有效地管理这些视频数据,并从其中提取有用的信息,我们需要自动的识别视频中的人类活动。近来,分布式应用的编程模型、中间件以及框架取得了很大的进步,使之能够处理大规模的数据。因此,为了满足不断增长的人类活动识别的计算需求,我们需要借助分布式应用程序来高效地完成这些任务。在本篇文章中,我们使用Spark分布式平台来解决大规模的人类活动识别任务。我们将传统的人类活动识别算法,如K-means聚类、VLAD编码、Fisher Vector编码等,通过并行的方式实现到了分布式平台Spark上。在本篇文章中详细的介绍了这些分布式应用的理论以及实现细节。