论文部分内容阅读
近年来,随着Internet应用的普及和飞速增长,网络提供的服务呈现多样化的趋势。很多用户要求可以在线欣赏音视频文件,使得提供音视频文件的网站迅速崛起。特别是近两年来,一些以Web2.0形式出现的由用户上传音视频的站点迅速发展壮大,如国外的Myspace、YouTube等,国内的六房网、土豆网、56网等。伴随着这类网站的成长,如何有效的发现这些网站提供的音视频文件成为迫切需要解决的问题。 本文从分析Web多媒体资源的特点入手,结合已经比较成熟的主题爬虫的思想,从多媒体资源相关度的角度来发现Web上散布的多媒体资源。本文主要围绕增量学习模型、多媒体资源发现知识库以及多媒体资源页面相关度算法三个方面进行了深入细致的探讨和研究,主要内容和成果可归纳为以下几点: 1.本文针对Web上多媒体资源的多种特征,提出了一种Web多媒体资源发现知识库。该知识库中包含了静态多媒体资源知识以及动态的多媒体资源知识,普通的多媒体资源发现系统采用的就是静态多媒体资源知识,而动态的知识是随着爬行的不断深入而不断变化的,实验表明了具有动态多媒体资源知识的系统具有更好的性能和效率。 2.本文在研究了现有主题爬虫的基础上,结合多媒体资源的具体特征,提出了一种基于增量学习的多媒体资源发现模型。该模型较好的将增量学习引入到多媒体资源发现的过程中,通过一个正反例生成器来对Web资源进行判断,进而生成的正反例提供给多媒体资源评价器和超链接评价器进行学习。提高了整个系统对多媒体资源的敏感性,使得系统可以更快更准的发现多媒体资源。 3.本文提出了一种多媒体资源页面评价算法,该算法综合考虑了页面内容信息以及超链接结构信息,将两者结合起来,避免了传统页面评价算法的缺点。 4.在上述研究的基础上,设计并实现了一个基于增量学习的多媒体资源发现系统,系统具有一定的可扩展性,在监控系统、Web多媒体资源统计中具有良好的应用前景。