基于语义的多文种信息处理平台SMIPP的研究

被引量 : 2次 | 上传用户:Northbay
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着世界全球化的的发展趋势以及国际交流和合作的日益频繁,以多文种信息处理平台为支撑环境的多文种信息处理技术已经成为信息处理技术研究的热点。同时,随着计算机技术的不断发展和信息量的飞速增长,文字信息处理技术的重点也已经从简单的文字输入、输出和存储转移到了各种面向内容和语义的信息处理技术上。所以,研究面向内容和语义的多文种信息处理平台和多文种代码体系不仅具有现实的意义,也具有巨大的实用价值。 本文提出了一个基于语义、面向信息处理的多文种信息处理平台的模型SMIPP。该模型不仅提供了一个多文种信息处理的环境,还提供了相应的信息处理技术,包括代码体系SemaCode、面向Ontology语义表达方式、面向信息处理应用的语料库、面向用户的输入和输出模型等。 为了满足SMIPP对信息表示的迫切需要,本文首先设计了一个面向信息处理的多文种代码体系SemaCode。SemaCode的七层结构(包括物理存储层、交换传输层、字符码位层、词码位层、属性层、语义层和应用接口层)不仅提供了高度的灵活性,而且还具有良好的扩展性和兼容性。SemaCode在码位层提出了按文种和字符编码的理念,使得它更加适合信息处理的要求。在属性层引入的标签技术也使得SemaCode具有良好的可描述性和可计算性。SemaCode还首次在词码位层和语义层中提出了词编码的思想,并实现了一种以语义为轴心、以词为语义单位、能在语义层提供丰富的语义表达能力的代码体系。另外,为了兼容Unicode,SemaCode还提供了和Unicode以及现有的各种编码方案之间的转换方法。 其次,本文定义并设计了一种以词义为轴心,支持多文种的语言Ontology,它是SMIPP语义信息的主要来源。该Ontology收录了具有语义的四类词:名词、动词、副词和形容词,并以词义和文种为类结点、
其他文献
护照是一个主权国家政府授权的移民主管部门依法颁发给本国公民出入国境时使用的有效旅行证件及其身份和国籍证明。护照制度是指有关护照管理、使用的法律规定和国际习惯。第
本文采用扫描电子显微镜和X射线衍射等方法,分析了不同处理时间的铝合金微弧氧化陶瓷层的微观形貌和相组成,研究了陶瓷层的生长过程;通过磨损试验探讨了工艺参数对油润滑条件下
红外探测器阵列由于受到工艺水平的限制,不能制成用于产生高分辨率红外图像所要求的密度,一般会产生空间欠抽样图像,图像中有严重的混淆现象,为了减小这种混淆、提高分辨率,引入微
改革开放以来,特别是20世纪90年代后,中国的建筑业获得了前所未有的高速发展。但是同时,也伴随着一种不容忽视的倾向:建筑设计一味追求形式的新奇而忽视人们现实生活的需求。一些
在市场经济环境下,特别是我国加入WTO后,随着金融业的逐步开放,银行业的竞争日趋激烈,业务的竞争最终是通过人才的竞争来实现的。作为一家商业银行要想在市场竞争中立于不败之地,
本文研究的对象是街道界面设计,目的是提供一种设计的方法。 21世纪城市的社会、经济功能、环境生态功能和技术功能的变革,及其空间形态的更新和创造,将对城市规划师及建筑师
随着我国国民经济的发展,电力网负荷急剧增加,特别是冲击性、非线性负荷所占比重不断加大,使得电网出现电压波动和闪变等电能质量问题。因此,对于电压波动和闪变的研究显得越来越
中药痛经巴布剂治疗痛经的实验研究 目的 通过中药痛经巴布剂主要药效学的研究,验证其治疗痛经的有效性;通过皮肤刺激试验,对中药痛经巴布剂的毒理作用有所认识,验证其安全性
污染与发展之间日益尖锐的矛盾早在几十年前就已引起了人们的重视,但如何解决这一矛盾一直是萦绕在人们乃至环保专业人士心中的难题。近几十年,对这一矛盾的解决主要还是停留在
“金融结构与货币传导机制”是一个并不全新但却富有挑战的国际性前沿论题,近年来西方主流经济学家的研究热点之一就是基于金融结构研究货币传导机制。就中国而言,该选题是一个