并行分类算法的研究与实现及其在视频分析中的应用

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:wxjffh8gf
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
信息时代,互联网每天都在产生着大量的数据,包括文本,音频,视频等等形式。如何提供快速有效的方法,在数量如此惊人的数据中获得有效信息,是时代向数据挖掘领域提出的挑战。当前,Apache Spark并行计算框架已经成为了大数据领域最为重要的一种工具。支持向量机(Support Vector Machine,SVM)是一种被广泛使用的经典模型。结合核函数,SVM能够获得更为准确的非线性模型,但其求解复杂程度较高,传统求解方法不利于求解较大规模的数据集,且难以进行并行化加速。基于此,本文引入了基于聚类的核矩阵内积过滤方法,通过将原始二次规划问题分解成多个子问题来支持并行训练,提出并实现了一种基于Spark的多重子模型并行支持向量机算法(Multiple Submodels Parallel Suport Vector Machine,MSP-SVM)。实验表明,MSP-SVM能够有效利用Spark集群提高模型训练速度,对比MLlib-SVMWithMiniSGD,MSP-SVM只消耗可接受的额外开销获得接近LIBSVM的建模分类准确度。目前,Spark框架多用于处理文本格式数据,对于视频等其他非文本数据的处理应用较少。随着互联网视频内容的爆发增长,对大规模视频数据进行分析处理的需求也逐渐浮现,同时在图像领域,深度学习在模式识别与特征抽取方面都表现出了空前的优势。基于此,本文提出并实现了基于Spark的大规模视频处理方法,将视频帧序列化为图片格式,并通过引入OpenCV,CaffeOnSpark等开源工具,实现了大规模视频数据的图像特征提取,结合本文实现的并行SVM算法,进行了人脸识别,表情识别的应用,并将所有实现的算法与功能设计成组件,进行了大数据挖掘平台的系统集成。
其他文献
现代市场经济制度下,基于经济人有限理性和机会主义行为倾向的经济学基本假定,宏观经济运行的不确定性、信息的非对称性、契约的不完全性以及委托代理关系中矛盾冲突的客观性
统编教材的阅读教学,以各单元课文学习(分"教读课文"和"自读课文")为主,构建了一个从"教读课文"到"自读课文"再到"课外阅读"的"三位一体"式阅读体系。八年级上册教师教学用书
"新课标"对阅读能力的要求是:"善于发现问题、提出问题,对文本能作出自己的分析判断,努力从不同的角度和层面进行阐发、评价和质疑。"当下,如果我们的课堂仍然以传授知识为主
最后要通过把握戏剧形象,理解戏剧主题。正如前文所言,我们可以通过对戏剧语言的解读,重点抓住人物语言来分析人物。如通过周冲对四凤说的一句"谢谢",我们就可以看出周冲是受
邓小平留给我们的最重要的理论遗产,是他的社会主义本质论。抓住“什么是社会主义”这个根本问题,深刻地揭示社会主义的本质,把对社会主义的认识提高到新的科学水平,这是邓小平晚
落实语文核心素养和推进语文新课改,需要重视思维训练。提升学生语文能力的关键,是训练学生整体思维能力。而创造性地建构基于"听"的阅读教学和作文教学新课型,是提高学生整
陈日亮老师是我的实践导师,他的"我即语文"的执着,文本细读的精深,读写合一的身体力行,心中装着"学生"和"教师"的大爱,都是我及所有语文人、所有教师终身学习的榜样。亲承导