论文部分内容阅读
语料库语言学是当代计算学语言学中经验主义方法论取得显著成效从而在计算语言学领域占有一定的优势地位的新学科方向。语料库不仅是自然语言处理领域的基础性资源,并且由此产生很多不同于理性主义方法的理论和方法。因此语料库建设和研究就成为计算语言学的奠基工作。实践证明一个好的语料库应该具有可重用性和可扩展性,而语料标注的标准化对于语料库建设具有十分重要的意义。语料标注跨越语言学和计算机科学,需要对标注的内容(即标注哪些信息)、目的(即为什么要标注)、手段(即怎样实现标注)等问题进行逐一的回答,而语料标注的标准化也需要在这些问题上有一个明确的答案之后才得以进行。但是目前中文语料标注的工作主要集中在标注内容的研究上,更多地从语言学的角度研究汉语词性标注和切分的问题,对于语料标注的手段问题特别是编码格式的问题很少涉及,这样也就达不到语料的标准化。
XML作为网络间数据交换的标准语言在许多垂直行业特别是电子商务中得到了广泛运用,同时目前在语料标注领域也出现了将XML作为标注的标记语言的趋势。
本文对汉语语料标注的问题进行了研究,主要包括:
1,比较了国内外语料标注的理论研究和工程项目,指出了国内语料标注研究的两大不足,即对语料标注的编码格式的关注程度不够;对于标注更多集中在切分标注层次上,而没有一个分层体系下的标注研究2,提出语料标注应该着眼于语料的相互交换,而不是语料的本地处理
3,基于上述的认识明确提出了标注语义和标注表示的区分,该划分具有十分重要的意义,该划分廓清了语料标注领域中的认识误区,将语料标注问题的研究分成两个相对独立的部分,从而可以相对独立地发展关于标注语义和标注表示地研究。并将标注表示的问题归结为一系列对标注表示的要求,这些要求需要有一个分层次的语料标注模型。
4,目前国内还没有出现关于语料标注抽象数据模型研究的资料,本文则给出了一个基于集合论和图论的形式化描述分层语料标注模型(MCAMMultilevelCorpusAnnotationModel),并且在定义该模型的同时将该抽象模型和具体的语料标注过程进行了对应,分析了分层标注模型的优点,并且给出了MCAM模型的XML表示,从而说明了该抽象模型现实的可行性。
5,最后则根据工作的实际,给出了一个MCAM模型下切分标注的XML规范表示,并编写了程序实现语料的内部格式到XML格式之间转化的程序6,本文的研究还包括对《语法信息词典》的XML改造。在分析了语法信息词典在形式上的诸多不足之后,给出了一个XML的规范,并根据该规范将词典的部分转换成了XML格式,转换的过程没有出现信息的丢失。