网络Flash资源文本信息提取研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:goodcat13579
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
伴随着互联网技术的进一步普及,国民信息技术应用能力作为发展的重难点而被特别强调,提高国民信息技术能力是教育技术学科建设的重点之一。Flash动画作为一种集文本、图形、图像、声音、视频、动画于一身的多媒体载体,凭借其制作简单、矢量格式放大不失真、体积小、交互丰富等特点日渐得到广泛的应用。Flash动画资源日益重要,但是获取Flash动画资源的检索研究还相对滞后。数据显示关键词检索的方式依然是互联网用户检索资源时使用的主要的手段。当前的Flash动画资源关键词检索是指针对资源所在网页进行分析,提取网页中的相关文本,分析得到的文本建立文本索引,这种方法有着明显的缺陷,主要是由于网页中的相关文本并不能很好的描述Flash动画的内容,造成了检索中的诸多问题。本研究立题网络Flash资源文本信息提取,主要研究内容为: Flash动画文件的结构和形成运作方式; Flash动画内部的文本信息的存在形式;Flash动画内部文本信息提取方法;Flash动画内部的文本信息的中文分词技术;设计相应的数据库收录分析得到的关键词形成索引。首先,充分研究了网络Flash动画文件中各类标签的结构内容和主要功能,通过研究标签了解Flash动画的运行方式和形成过程。网络中Flash动画文件的主要格式为SWF,是一种与XML文件结构相似的文件格式。Flash动画中所包含的各种媒体元素、视觉效果以及交互的实现都是依靠一套独立的二进制标签进行说明的。然后,研究Flash动画中文本信息分类并提出相应的提取方法。在充分分析Flash动画文件文本的定义方式、存储结构的基础上,依照其定义、结构、存储方式的的不同将Flash动画中的文本信息分为不同种类,即静态文本和动态文本、输入文本。又按照其定义的方式不同进一步细分为轮廓文本和设备文本,针对不同种类文本的存储特点找到不同的提取方式。接着,研究了Flash动画文本信息中文分词技术。在对中文分词技术进行大量研究工作之后,提出本研究的分词技术,将提取到的字符串在经历一系列的转码工作之后得到汉字字串,汉字字串通过基于词典、双向比较、词性标注统一的机械分词法进行分词处理,得到关键词之后对其进行进一步的过滤去重,以及划分处理。并将得到的关键词存储至设计好的索引数据库中。最后,研究检验系统的性能。以硕思精灵为标准参照,对七类Flash动画样本进行检验,从查全率和查准率两个纬度对系统的性能进行检验。本论文使用的开发工具为Visual C++6.0程序,在Windows XP操作系统环境中开发了Flash动画文本信息提取与标注平台程序模块,将Flash动画中的中文本信息提取出来进过分词等处理将结果存储至索引数据库中,为基于内容的Flash动画检索系统服务。
其他文献
在每日的工作、学习和生活中,我们要不断接受大量繁杂无序的信息,但是,有很多信息并不是我们所需要的。人类视觉加工系统的能力是有限的,因此如何从信息中选择关键信息,提高
  本课题对DSM-CC标准的系统结构功能及MPEG-2系统层规范及其定义的传输流的语法和语义进行了深入剖析,着重研究了U-U(User-to-User)接口的接口库客户端以及接口功能;研究了I
本文以知识经济时代为背景,从企业教育的实践出发,探讨企业教育在企业发展中的战略地位。通过研究,本文得出如下认识: (1)知识经济的时代特征改变了企业生存的资源环境,知识资
以具体和抽象的汉语双字词作为实验材料,采用语义启动的研究范式综合考查了汉语双字词在左右利手者大脑两半球的语义启动效应。48名在校大学生(24名右利手者,24名左利手者)参
本研究用情绪小品文,以问卷调查和访谈相结合的方法对四——六年级的124名不同目标定向的儿童(年龄范围9——14岁)进行了有关情绪调节策略的实验研究,主要是探讨两组儿童在准确
  为推动现代教育技术在中小学校教育教学中的广泛应用,克服现代教育技术在可操作性方面存在的问题,撰写此文。本文采用封闭型和开放型问卷,对河北省167所不同类型的中小学校