论文部分内容阅读
经过几十年的建设和发展,语料库已经成为语言学和信息技术研究的重要领域。语料库与学习资源有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,而利用教育技术学的学科优势和特点,发挥语料库在建设学习资源的方面优势作用,对资源的共享必将有很多的帮助。本文在分析了语料库的背景及发展现状,学习资源建设理论基础和主要内容后,提出了一种基于Web检索的小型学习资源语料库系统模型。开发了基于Java的专用型学习资源语料库系统,实现了数据收集、多种文档处理、最终能够实现了语料检索和语料提取。首先,介绍了计算机语料库的理论基础和发展现状,详细论述了学习资源的定义、内容等,接着分析了语料库在学习资源库建设中的可借鉴之处,简单描述了搜索引擎的发展现状和工作原理。其次,介绍了自然语言处理的理论基础以及现阶段应用比较广泛的中文分词器,分析了网页消重和网页净化的相关技术现状。最后,提出了基于Lucene/Heritrix的小型学习资源语料库的系统模型。使用Heritix实现了网页抓取、分析以及利用Lucene对学习资源语料库的检索。