论文部分内容阅读
国家语言资源监测与研究是一个全新的课题。本论文主要根据国家语言资源监测与研究中心平面媒体分中心的相关监测实践,对中文资源的监测进行了系统研究,总结出语言资源监测与研究主要包括两方面的工作,一是语言资源建设;二是研制开发用于语言资源监测与研究的软件工具。本文围绕这两个方面展开论述,所涉及的内容主要包括以下几个方面:首先,对语言资源监测与研究的发展现状及目前国内外对语言资源进行监测和研究的水平进行了宏观分析。分国际和国内两大部分。国际方面主要介绍了监控语料库的发展情况,并分析了它与语言资源监测的关系;国内方面主要介绍了动态流通语料库及动态语言知识更新理论,还有就是国家语言资源监测与研究中心的情况。以此为背景,确定了本文的研究目标是设计一套用于辅助语言资源建设和语言资源监测与研究的软件工具包的架构,并根据现在的需求实现部分功能。其次,在确定了研究目标以后,第三章论述了该软件工具包的主要功能,并以此为基础,完成了该软件工具包的架构设计。该软件工具包的主要功能包括辅助语言资源建设功能和辅助语言资源监测与研究功能。从架构来看,主要由辅助语言资源建设模块、语言资源索引模块和辅助语言资源监测与研究模块三部分构成。此外还介绍了该软件工具包的开发环境、开发基础、主要特色等。再次,第四章主要是根据功能分析和架构设计,完成该软件包部分功能的开发。主要包括语料预处理、语言资源标注、语言资源深加工、语言资源索引等。其中最重要的是语言资源标注和语言资源索引这两个子模块的开发。以DC核心集为基础确定了一套语言资源标注基本集,并结合资源描述框架,用XML语言对语言资源进行标注。索引模块调用了一个开源的索引库——DotLucene,对标注好的语言资源建立索引,为监测与研究做好准备。最后,第五章主要完成了监测模块的开发,还介绍了该软件包在实际项目中的使用情况。第六章是总结整个研究情况,包括具体的研究成果,对语言资源监测与研究的支持等。并对进一步的研究工进行了规划。