论文部分内容阅读
随着世界全球化的的发展趋势以及国际交流和合作的日益频繁,以多文种信息处理平台为支撑环境的多文种信息处理技术已经成为信息处理技术研究的热点。同时,随着计算机技术的不断发展和信息量的飞速增长,文字信息处理技术的重点也已经从简单的文字输入、输出和存储转移到了各种面向内容和语义的信息处理技术上。所以,研究面向内容和语义的多文种信息处理平台和多文种代码体系不仅具有现实的意义,也具有巨大的实用价值。 本文提出了一个基于语义、面向信息处理的多文种信息处理平台的模型SMIPP。该模型不仅提供了一个多文种信息处理的环境,还提供了相应的信息处理技术,包括代码体系SemaCode、面向Ontology语义表达方式、面向信息处理应用的语料库、面向用户的输入和输出模型等。 为了满足SMIPP对信息表示的迫切需要,本文首先设计了一个面向信息处理的多文种代码体系SemaCode。SemaCode的七层结构(包括物理存储层、交换传输层、字符码位层、词码位层、属性层、语义层和应用接口层)不仅提供了高度的灵活性,而且还具有良好的扩展性和兼容性。SemaCode在码位层提出了按文种和字符编码的理念,使得它更加适合信息处理的要求。在属性层引入的标签技术也使得SemaCode具有良好的可描述性和可计算性。SemaCode还首次在词码位层和语义层中提出了词编码的思想,并实现了一种以语义为轴心、以词为语义单位、能在语义层提供丰富的语义表达能力的代码体系。另外,为了兼容Unicode,SemaCode还提供了和Unicode以及现有的各种编码方案之间的转换方法。 其次,本文定义并设计了一种以词义为轴心,支持多文种的语言Ontology,它是SMIPP语义信息的主要来源。该Ontology收录了具有语义的四类词:名词、动词、副词和形容词,并以词义和文种为类结点、