基于XML的汉语语料标注问题研究

来源 :上海交通大学 | 被引量 : 0次 | 上传用户:yaoyaoyy1188
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语料库语言学是当代计算学语言学中经验主义方法论取得显著成效从而在计算语言学领域占有一定的优势地位的新学科方向。语料库不仅是自然语言处理领域的基础性资源,并且由此产生很多不同于理性主义方法的理论和方法。因此语料库建设和研究就成为计算语言学的奠基工作。实践证明一个好的语料库应该具有可重用性和可扩展性,而语料标注的标准化对于语料库建设具有十分重要的意义。语料标注跨越语言学和计算机科学,需要对标注的内容(即标注哪些信息)、目的(即为什么要标注)、手段(即怎样实现标注)等问题进行逐一的回答,而语料标注的标准化也需要在这些问题上有一个明确的答案之后才得以进行。但是目前中文语料标注的工作主要集中在标注内容的研究上,更多地从语言学的角度研究汉语词性标注和切分的问题,对于语料标注的手段问题特别是编码格式的问题很少涉及,这样也就达不到语料的标准化。 XML作为网络间数据交换的标准语言在许多垂直行业特别是电子商务中得到了广泛运用,同时目前在语料标注领域也出现了将XML作为标注的标记语言的趋势。 本文对汉语语料标注的问题进行了研究,主要包括: 1,比较了国内外语料标注的理论研究和工程项目,指出了国内语料标注研究的两大不足,即对语料标注的编码格式的关注程度不够;对于标注更多集中在切分标注层次上,而没有一个分层体系下的标注研究2,提出语料标注应该着眼于语料的相互交换,而不是语料的本地处理 3,基于上述的认识明确提出了标注语义和标注表示的区分,该划分具有十分重要的意义,该划分廓清了语料标注领域中的认识误区,将语料标注问题的研究分成两个相对独立的部分,从而可以相对独立地发展关于标注语义和标注表示地研究。并将标注表示的问题归结为一系列对标注表示的要求,这些要求需要有一个分层次的语料标注模型。 4,目前国内还没有出现关于语料标注抽象数据模型研究的资料,本文则给出了一个基于集合论和图论的形式化描述分层语料标注模型(MCAMMultilevelCorpusAnnotationModel),并且在定义该模型的同时将该抽象模型和具体的语料标注过程进行了对应,分析了分层标注模型的优点,并且给出了MCAM模型的XML表示,从而说明了该抽象模型现实的可行性。 5,最后则根据工作的实际,给出了一个MCAM模型下切分标注的XML规范表示,并编写了程序实现语料的内部格式到XML格式之间转化的程序6,本文的研究还包括对《语法信息词典》的XML改造。在分析了语法信息词典在形式上的诸多不足之后,给出了一个XML的规范,并根据该规范将词典的部分转换成了XML格式,转换的过程没有出现信息的丢失。
其他文献
该文提出了一种神经网络模型的新型概念.认为生物神经网络的传输同样满足物质化学变化的热力学和动力学的条件,同时估计这种变化是一种断续而非连续变化.文中还推导了感应电
伴随着计算机网络的迅猛发展,计算机软件产业的不断进步,计算机软件的知识产权保护问题就显得尤为重要。尊重知识产权是保护高新技术,发展知识经济的关键,但是,由于软件具有
基于计算机视觉的手势识别作为新一代的人机交互手段,它简单、直观、易使用,在某些应用领域,如虚拟现实、手语翻译、远程控制等领域,有着不可替代的优越性,因此,越来越得到人
早期的计算机软件是以命令方式与用户交互的,伴随着软件行业的发展,拥有简单易用的图形化用户界面的软件越来越多,越来越受到用户的追捧,用户可以通过简单的点击鼠标,来使用
为了提高端到端的服务质量和保持英特网的稳定性和公平性,服务器端的发送码率应该根据网络情况动态地调节,自动适应变化的可用带宽.该论文研究的自适应流式视频传输的码率控
该文以国家"九五"重点科技攻关项目"用于局域网的ATM交换机的研究与开发"(97-769)中的97-769-01专题为背景,论述了LT-30ATM接入交换机系统结构和系统软件的设计与实现;结合多
该文就教育点播系统进行了研究和实验性实现.文章首先介绍了远程教学的产生背景、研究意义、国内外发展现状,以及远程教学的组成和体系结构;紧接着介绍了与该文息息相关的视
本文分析了具有扩展功能的Internet的远程服务系统及其海量信息数据的安全管理要求,结合当前先进的多层分布式计算概念,给出了系统的总体设计方案。通过研究医疗辅助诊断系统的
随着INTERNET的迅速发展,人们对网络业务的需求越来越高,相应对网络建设和用户管理也提出了新的要求。在宽带城域网的建设中,我们对如何综合运用现有网络资源,充分发挥网络资源潜
近年来,随着网络技术的发展和通信技术的进步,人与人的交流日趋频繁。由此视频会议系统已成为研究的一个热点。本文介绍了利用COM组件技术开发的一套基于IP多播的讨论式桌面会