基于Web检索的小型学习资源语料库的建设

来源 :西安电子科技大学 | 被引量 : 0次 | 上传用户:colinwangaaaa
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
经过几十年的建设和发展,语料库已经成为语言学和信息技术研究的重要领域。语料库与学习资源有着相辅相成的关系,语料库是用统计语言模型方法处理自然语言的基础资源,而利用教育技术学的学科优势和特点,发挥语料库在建设学习资源的方面优势作用,对资源的共享必将有很多的帮助。本文在分析了语料库的背景及发展现状,学习资源建设理论基础和主要内容后,提出了一种基于Web检索的小型学习资源语料库系统模型。开发了基于Java的专用型学习资源语料库系统,实现了数据收集、多种文档处理、最终能够实现了语料检索和语料提取。首先,介绍了计算机语料库的理论基础和发展现状,详细论述了学习资源的定义、内容等,接着分析了语料库在学习资源库建设中的可借鉴之处,简单描述了搜索引擎的发展现状和工作原理。其次,介绍了自然语言处理的理论基础以及现阶段应用比较广泛的中文分词器,分析了网页消重和网页净化的相关技术现状。最后,提出了基于Lucene/Heritrix的小型学习资源语料库的系统模型。使用Heritix实现了网页抓取、分析以及利用Lucene对学习资源语料库的检索。
其他文献
为了适应网络电子编务系统的发展,应广大作者快速投稿和便捷交费需求,《中国医院》杂志网站于近期已经开通了网上在【在线投稿】和【在线交费】平台,欢迎大家踊跃通过在线投
同志们:今天会议的主要任务是传达、学习“全党深入学习实践科学发展观活动动员大会”和胡锦涛总书记重要讲话精神,部署我局开展深入学习实践科学发展观活动。下面,我讲几点
期刊
目的:为了全面了解包头市市售熟肉类制品中复合磷酸盐和合成色素含量情况。方法:对包头市熟肉制品进行随机抽样调查,用高效液相色谱法检测熟肉制品中人工合成色素的含量,用微
自1981年首个高等教育学硕士点建立后,经过三十多年的发展,我国已拥有众多的高等教育学博士、硕士学位点。为应对新一轮学位授权审核制度改革所带来的挑战,全面把握我国高等教育
400年前,莎士比亚用一管轻柔的鹅毛笔,传神地刻画出丹麦王子哈姆雷特面对人性善恶,内心涌起“生存还是毁灭,这是一个问题”的巨大纠结。这种痛苦的拷问,并不限于彼时彼地。互
目的研究建立固相萃取高效液相色谱法同时测定畜禽肉中5种雌激素(雌二醇、雌三醇、雌酮、炔雌醇和己烯雌酚)的快速而准确的方法。方法优化固相萃取实验条件,研究样品的提取和
当前,农村地区采取了高效的用水管理机制,具有重大的意义,作用明显,但是仍存在诸多不足,如,对灌溉用水机制的改革与管理存在轻视的态度,水利建设不到位,缺乏完善的节水体系,
期刊
当前中国农村教育最普遍的现象和问题莫过于2001年以来的农村中小学布局调整问题,尤其是对农村小学实行的“撤点并校”。大规模的农村小学和教学点的撤并,给农村学生和家长、