基于条件随机场的汉语多词块自动识别研究

来源 :山西大学 | 被引量 : 1次 | 上传用户:ji5261
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
汉语多词块作为组块体系的重要组成部分,是由两个或两个以上的词语按照一定的关联关系组合形成的信息描述单位。多词块主要包括句法信息、关系信息和序列标记组合信息。汉语多词块识别不仅可以在一定程度上简化完全句法分析,而且有利于多词块信息在大规模真实任务中得到应用。本文的任务是在给定一个已经完成分词和词性标注的句子后,自动识别出该句子中所有的汉语多词块,从中获得各种块标记信息。本文引进条件随机场,它是一个用于标记和分割数据的无向图模型,能够避免严格的独立性假设和标记偏置问题,同时利用条件随机场在序列标注任务中表现出的良好性能,构建了汉语多词块的自动识别模型并对模型进行了融合处理。主要工作如下:(1)多词块自动识别模型的构建在汉语多词块描述体系的基础上,以清华大学的“汉语多词块库”作为语料来源,构建了基于条件随机场的两个标记标注模型,即:“句法标记标注模型”和“序列标记标注模型”。在句法标记标注模型中,采用IOB2边界标注策略,将句法标记的标注看作是一个序列标注任务,通过为句子的每个词语赋予一个句法标记,自动标注出该句子的所有多词块边界标记及其句法标记;在序列标记标注模型中,多词块中的序列标记跟其块内每个词之间存在一一对应关系,通过对多词块中每个词进行自动标注,得到其对应的序列标记。(2)多词块自动识别模型的融合处理针对上述两种模型,分别设计了一系列实验。特征选取主要基于单个词及其词性、多个词的组合及其词性的组合、状态转移特征。在对实验结果进行有效融合的过程中,由多词块的边界标记和序列标记,确定其序列标记组合,同时使用可靠的启发式规则集,从多词块的序列标记组合中推导出其对应的关系标记,从而得到了块的主要描述信息。本文在多词块自动识别方面所作的工作,为汉语句法形式和语义内容之间建立有机联系做出了准备。如何进一步提高多词块自动识别的性能是下一步的研究重点。
其他文献
巨鹿楼张镇话特点显著,具有较高的研究价值。近两年方言的差距在新的聚居中不断缩小,在这转折的关键时刻,及时记录下这一方言已是一件迫不及待的事情。加上笔者身为巨鹿县人,
“一A一B”是现代汉语口语中使用频率较高的一个格式。前人对此格式作了相应的研究,但分析得不够深入、全面。尤其是“一”的语义在现代汉语中意义复杂,在“一A一B”格式中也
灵川县位于桂林市北部,论文以灵川县灵川镇双洲村为代表点,在认真、细致的调查研究的基础上,对其语音词汇状况等进行了较为详尽的描写和说明,以期为桂北平话的深入研究提供一
作为一种高强度轻质工程材料,蜂窝铝芯夹层结构复合材料以其密度小、比强度高、可设计性强等优点广泛应用于航空航天、交通等各个领域。近年来,风力发电技术的快速发展对风力机
中国国家旅游形象构筑与传播的系统研究已迫在眉睫.国内外学者就中国国家旅游形象的影响因素、定位与构筑、营销与传播等主要议题展开讨论,但局限于定性的思辨性分析,缺乏实
传统的翻译研究是以研究文本为主,把“忠实、对等”等原则放在首位,主要是在语言层面上分析译文是否忠实有效地传达原作的信息,也就是研究“怎么译”的问题。译者,文学翻译活
医患之间的有效交流是医生获得患者病情信息并对其进行相应诊断的先决条件;同时患者也能通过向医生提供并获取信息以便进一步了解与治疗相关的内容。然而,由于医患之间在知识
C64K型车辆是敞车,作用是供在准轨铁路上使用装运煤炭、矿石、建材、木材、机械设备等货物。文章介绍了C64K型车辆,阐述检修工艺有效性分析.并提出对检修工艺制度改革的几点思考
蒙元时期,中国北方一直处于蒙古,契丹,女真,汉等民族混杂生活的状态。这些不同民族由于相互影响出现一些特殊的语言现象,诸如蒙元时期的“蒙式汉译”。本文在前人的研究成果