论文部分内容阅读
本文就制定《信息处理用现代汉语词类标记集规范》阐述我们对于规范问题的看法和做法。规范不是强制的 ,只规范加工结果 ,不规范加工过程。《规范》研制的目的在于为中文信息处理研究提供一套可以作为国家规范的现代汉语词类标记集体系 ,以便各个中文信息处理系统能够使用规范统一的词类标记集。这个《规范》试图解决词类标记的统一问题 ,该《规范》的特点是 :继承性 ,单功能性 ,通用性和可扩充性。本文还主要讨论了关于研制规范的一些原则性问题和小类标记问题 ,最后给出基于《规范》的词性标注在真实语料中的覆盖实验数据。