平面媒体语言资源监测软件包开发及应用

来源 :北京语言大学 | 被引量 : 0次 | 上传用户:yiyiyaya13575
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
国家语言资源监测与研究是一个全新的课题。本论文主要根据国家语言资源监测与研究中心平面媒体分中心的相关监测实践,对中文资源的监测进行了系统研究,总结出语言资源监测与研究主要包括两方面的工作,一是语言资源建设;二是研制开发用于语言资源监测与研究的软件工具。本文围绕这两个方面展开论述,所涉及的内容主要包括以下几个方面:首先,对语言资源监测与研究的发展现状及目前国内外对语言资源进行监测和研究的水平进行了宏观分析。分国际和国内两大部分。国际方面主要介绍了监控语料库的发展情况,并分析了它与语言资源监测的关系;国内方面主要介绍了动态流通语料库及动态语言知识更新理论,还有就是国家语言资源监测与研究中心的情况。以此为背景,确定了本文的研究目标是设计一套用于辅助语言资源建设和语言资源监测与研究的软件工具包的架构,并根据现在的需求实现部分功能。其次,在确定了研究目标以后,第三章论述了该软件工具包的主要功能,并以此为基础,完成了该软件工具包的架构设计。该软件工具包的主要功能包括辅助语言资源建设功能和辅助语言资源监测与研究功能。从架构来看,主要由辅助语言资源建设模块、语言资源索引模块和辅助语言资源监测与研究模块三部分构成。此外还介绍了该软件工具包的开发环境、开发基础、主要特色等。再次,第四章主要是根据功能分析和架构设计,完成该软件包部分功能的开发。主要包括语料预处理、语言资源标注、语言资源深加工、语言资源索引等。其中最重要的是语言资源标注和语言资源索引这两个子模块的开发。以DC核心集为基础确定了一套语言资源标注基本集,并结合资源描述框架,用XML语言对语言资源进行标注。索引模块调用了一个开源的索引库——DotLucene,对标注好的语言资源建立索引,为监测与研究做好准备。最后,第五章主要完成了监测模块的开发,还介绍了该软件包在实际项目中的使用情况。第六章是总结整个研究情况,包括具体的研究成果,对语言资源监测与研究的支持等。并对进一步的研究工进行了规划。
其他文献
对采用TDI-CCD对一维正弦波图像进行推扫成像时的输出结果进行了一系列仿真,提出了平均传递函数的概念,以适应TDI-CCD的传递函数评价.仿真研究了在具有偏流角误差和像移匹配
1992年,交通部在广州召开了全国内河航道养护管理工作会议,确立了“深化改革、依法治航、加强养护、征好规费、科学管理、保障畅通”的航道养护管理工作指导方针。十年来,各级交
对非系统变量在TDICCD成像质量的影响进行了讨论,且给出了校正方法。
珠江是我国南方的一条大河,由西、北、东江及珠江三角洲河网4部分组成.主干经滇、黔、桂、粤4省区,流经磨刀门入海,全长2 214 km.珠江航运在西部大开发、发挥经济互补性方面
1997年7月1日零时,在全世界目光的凝视下,庄严的五星红旗和紫荆花区旗相伴冉冉升起,她标志着香港在海外漂泊了一个半世纪之后终于“回家”了。从此,香港同胞就以这块土地真正主人
通过某空间遥感相机模样热分析与热试验结果的比较,发掘出目前我们在这两方面工作中存在的问题。阐明了热分析与热试验有机结合的重要性,并就如何提高热分析与热试验水平提出一
讨论了用人造多晶金刚石刀具(PCD)进行超精密切削加工的表面形貌,重点讨论了微观纹理特征。
就我所研制的新型陀螺经纬仪,对信息量输入到输出的各中间环节,进行了精度分析。从中得出进一步提高整机的定向精度的措施及存在的问题。
针对目前测量船船体变表测量系统的一些不足,首次提出采用双频偏振法测量横扭角,并从实际出发了介绍了双频偏振幅射源产生的三种方法,在着重分析该方法的测量精度后,讨论了双频偏
以日本东芝公司的线阵CCD器件TCD102D为例,详细介绍了一种简单、可靠、灵活的CCD时序信号发生器的设计方法。