论文部分内容阅读
随着互联网技术的发展,形形色色的学前教育机构或者个人在Internet上发布了各自的学前教育资源。这些资源的丰富程度超过了以往的任何单个单位的资源,它几乎能够提供已有的关于学前教育的所有资源。在现代社会条件下,如果某一学前教育机构不能有效的整合网络中的网页资源,那么该机构的发展将会受到极大的限制。同样的,如果家长不能有效的获取自己想要的学前教育资源,其家庭学前教育水平就无法充分地得到信息化给教育带来的便利性。本文设计了一个基于学前教育主题的多媒体资源检索系统,主要实现了网页中提取多媒体资源,多媒体相关文本信息解析,基于文本的学前教育主题类多媒体资源自动分类以及网页中多媒体类噪音的过滤,为学前教育领域的相关人员提供主题多媒体资源检索服务。首先,我们对系统作了一番需求分析,简要地介绍了系统设计的时代背景和多媒体资源的一些特点。在此基础上,我们进一步阐释了系统设计的目标内容和实现方案。接着,我们详细介绍了多媒体检索及其相关技术的研究现状,并就多媒体检索领域的一些关键性的技术(如主题蜘蛛、自动分类、网页去噪等)研究作了详细的描述。随后,我们先从整体上介绍了系统的结构并对各部分的功能逐个进行详细说明。在此基础上我们就系统数据库设计作了必要的说明。然后,我们分别就系统中涉及到的两个关键算法:基于TFIDF和空间向量模型(Vector Space Model, VSM)的多媒体类资源自动分类算法和学前教育主题下多媒体类噪音资源过滤算法作了分别的介绍。在介绍分类算法的实现过程中,我们详细地介绍了从训练集整理到分类器评价过程中的每个步骤,包括其中遇到的困难和解决方法。在过滤算法中,我们首先分析统计了学前教育领域内主题相关资源与非主题相关资源之间的差异,总结出非主题相关资源所具有的一系列的特点,在此基础上设计了基于规则的多媒体类噪音过滤算法。此后,为检验上述两个算法的实际使用效果,我们利用自己设计的网络蜘蛛爬取了一定量的多媒体资源及其相关信息,使用这些数据从不同的角度测试两个算法的效果。实验数据表明这两个算法在基于学前教育主题的多媒体检索系统中能够取得较为满意的效果。最后,我们就系统设计工作中存在的不足和其它有待于改进的地方作了必要地阐述。