基于搭配强度的复句关系词自动标识方法研究

来源 :华中师范大学 | 被引量 : 0次 | 上传用户:cxx163252
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,中文信息处理的最大难题是如何实现汉语句子的自动标识。“句处理”主要分为单句处理和复句的处理,现在研究较多的是单句的处理。而复句是连接单句与篇章的桥梁,因而复句的自动标识更加重要,但复句的自动标识及其艰难,目前很少有人涉及。关系词在复句中是一个重要组成部分,一个句子的逻辑语义就主要体现在关系词上,因此,自动标识复句关系词是识别复句的关键环节。但是,复句中的“准关系词”有时充当关系词,有时又不充当关系词,所以要实现计算机自动标识复句关系词也非常困难。搭配强度是指两个词之间相互吸引的程度,搭配强度越大意味着这两个词共现的概率越大。搭配强度大、共现频率高的两个词我们就称作它们具备搭配关系。本文对复句中的关系词自动标注是针对具有搭配关系的关系词来进行的。对于现代汉语复句关系词的自动标识,一般有基于规则的方法、基于统计的方法以及规则和统计相结合的方法。本文提出的方法是基于大规模语料库的,完全基于统计的方法。本文首先基于复句关系词本体知识库,提取已经经过分词标注处理的复句中的准关系词,然后设计一种搭配强度的评估方法先判别从复句中提取出来的多个准关系词是否符合搭配关系。其中,搭配强度的评估方法主要是基于对大规模语料库的统计,统计出关系词的出现频率、搭配关系词的搭配距离、共现频率,基于这些信息计算出搭配关系词的搭配强度,观察其是否满足一定的阂值,然后判定它们之间是否存在搭配关系。在判别了搭配关系后,在搭配环境下对这两个准关系词进行自动标识。先将待标注的准关系词及其上下文语境分为标注为关系词和不标注为关系词的两个序列,利用相对词频,分别计算它们和搭配词的搭配强度,然后进行比较,取较大值的标注结果,从而完成准关系词的自动标识。
其他文献
随着软件产业的迅速发展,特别是随着网络技术的发展,软件中存在的微小漏洞都有可能被恶意攻击者利用,从而对企业或者普通用户造成难以估量的损失。因此,如何运用测试技术更好地发
随着高中课程改革的不断深入,如何做到能让学生从物理课堂中发现问题进而用我们所学的知识解决问题,体会到成功的喜悦.本文从如何创设问题情境,引导学生如何实现师生探究或生
气韵是指艺术上所呈现出来的独特风格,比如书法的韵味与绘画的意境等,“气”指的是生生不息的生命力,“韵”代表事物所蕴含的某种情态,气韵是艺术创作的灵魂.本文主要阐述何
一、教材与学情分析有机化合物是人类赖以生存的重要物质基础,对国民经济的可持续发展和人民生活水平的提高都起着极为重要的作用.乙醇是重要的有机化合物,是酒的主要成分又
期刊
文章主要针对山西地区现存的古代壁画,分析古代壁画所具有的艺术性,了解其中蕴含的历史价值与美术价值,并对保护、修复工作展开探讨,分析壁画保护的一系列流程,提出了原地保
化学实验是化学课程的灵魂,又是进行科学探究的重要方式.在新一轮课程改革的推动下,各中学都在不断加强化学实验室的建设,为满足中学化学实验的需求,储备一定数量的化学仪器
近年来,生物特征识别技术受到了人们的普遍关注。与传统的基于物品的(例如身份证)或基于记忆的(例如密码)身份验证方式不同,生物特征是随身携带、不会丢失、不会被遗忘、不容
悠悠徐徐,一股新风扑面,叫人心神为之一振。这是近日喜读四川日报几条不起眼的短文带给我的感觉。这里试举二例。其一,载1986年9月3日,题为《望报考职中学生注意社会需求信
现今视频监控系统实时监控被监视对象的行为,在管理和监测城市的任务上具有越来越重要的地位,可以说是无处不在。而视频监控系统需要朝着智能化的方向前进,要尽可能地减少人工干预或完全自动化地完成所需的任务。智能视频监控技术主要是用计算机视觉的方法实现所需完成的视觉任务,例如场景中的目标定位、目标识别、目标跟踪等视觉任务,智能监控的过程不需要人为进行干预。智能视频监控技术在摄像机拍录的视频图像序列上进行自动