汉语动词名物化复合结构的语义解释

被引量 : 1次 | 上传用户:aiming5968f
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
网络信息和信息检索在人们日常生活中已成为不可或缺的组成部分,语言文字占据信息形式上的绝大多数,实际上关注的是语言形式所承载的内容信息,本质上都涉及自然语言的语义概念。自然语言成分结构间的语义关系计算问题是自然语言理解的关键,其本质在于计算语言结构与语言语义之间的对应关系。如何寻找新的思路及其理论和方法,使得语言的结构和语义尽量能同构对应,尤其是适应动态地计算语言复合结构的概念意义,具有重要的理论研究意义和广阔的应用前景。尽管语言表达有句、短语等多种形式,但从概念分析角度看都可归结到词汇概念间的组合叠置。这与当前国内外语言学聚焦于词汇理论相一致。复合结构是一种由若干个名词性词汇直接组合而成,在整体上相当于一个新的名词性词汇的语言结构形式。和短语、句等语言结构不同,复合结构的构成缺乏功能标记,这对其语义计算形成很大障碍,实际上成为语义计算的一个瓶颈问题。本文主要解决汉语中动词名物化进入复合结构时的语义解释问题。研究的起点是从实例分析出发,剖析以往语法研究中的不足,标引复合结构子成分之间的概念关系,归纳复合结构中概念耦合的内在特点以及多语种表达式在复合结构这一层次上存在自然对齐的潜在可能性。首先,作为数据准备工作,研究了动词名物化复合结构的识别;然后,分别构建了两种基本动词名物化复合结构(NV型和VN型)的语义解释模型;最后,还探讨了属性知识在复合结构语义解释中的应用。具体来讲,本文的创新性工作有以下几点:一、提出了一种基于主题词表和万维网的复合结构识别方法。为了有效地解决汉语中名词和动词组合时的结构歧义问题,构造了两个新的分类特征集合:词汇复合能力和指称模板特征。特征的获取使用了两个独立的资源:主题词表和万维网,其好处在于不依赖于复合结构出现的具体上下文,可以用于对文档中的低频复合结构进行识别,而这是以往的识别模型所无法解决的问题。机器学习实验表明,两个新特征集极大的改善了动词名物化复合结构识别的性能。二、归纳了汉语NV型复合结构中涉及的语义关系,构建了一个基于词汇语法模板的复合结构语义解释模型。模型定义了新的词汇模板形式:功能词例化模板,并将其作为分类特征,对复合结构词汇间的语义关系进行标注。模型的主要优点是其对资源的依赖性很低,以往的方法主要利用词汇本体和句法语料,而该模型则使用纯文本语料来获取复合结构的分类特征,从而使得模型的适用性和可移植性大大增强。实验表明,基于功能词例化模板的模型取得了很好的性能。三、提出了汉语VN型复合结构的语义关系标注集,并设计了一个机器翻译驱动的复合结构语义解释模型。基于复合结构的多语种自然同构假设,模型首先将汉语复合结构自动翻译为对齐的英文复合结构,然后将英文复合结构作为附加信息,用于对汉语的复合结构进行解释。模型的主要优点是可以利用跨语种的资源,对多语种的对齐复合结构同时进行语义解释,从而可以在某种程度解决某些语种中的资源缺乏问题。实验证实,双语语义解释模型的性能要好于单语模型。四、构建了一个属性知识库的获取框架。词汇概念可以被描述为属性和属性值的集合,属性知识对于复合结构语义解释非常重要。属性获取分为两个阶段,一个阶段是属性词的获取,一个阶段是属性宿主的求取。在属性词的获取中,设计了一个机读词典和万维网的协同自举算法。算法充分利用了汉语的义符构词特点,并结合了机读词典和万维网作为属性知识的来源,对属性词进行获取。而针对属性宿主的求取,则将其视为一个选择约束求解问题,通过评估属性与可能的概念类之间的选择关联度来确定属性的宿主。该方法的特点在于其可以动态、高效地获取以属性词为中心的词汇知识。五、利用所获取的属性知识,提出了一种基于属性词的词汇相似度计算模型。与以往基于词汇层级知识体系的相似度计算方法不同,该模型充分利用了词汇概念所可能具有的属性词信息来对词汇概念进行表征。属性词可以对概念的各个不同方面进行刻画,如果两个词汇概念共享的关键属性信息越多,则两个词汇概念越为相似,从而,用属性词向量表示词汇概念可以更加精细的刻画词汇概念之间的区分程度。在标准数据集评测以及复合结构语义解释的应用上,该模型取得了比其他词汇相似度模型更好的性能。
其他文献
本文主要针对单片机高低端应用展开研究,设计开发了基于51单片机的嵌入式无线外设接口和基于ARM单片机的会议系统终端两个嵌入式无线设备。所开发的无线外设接口主要功能是将
内蒙古原奶供给主要依靠农村奶牛养殖户(以下简称奶农),但大部分奶农的养殖规模偏小,在奶业产业链中处于弱势地位。当牛奶加工企业降低原奶收购价格时,奶农亏损严重,只好缩小
公共就业服务绩效涉及公共就业服务的投入、产出、结果和影响等多个方面。绩效水平直接影响到劳动力市场的服务水平,在就业形势日益严峻的今天,对我国公共就业服务进行绩效评
在竞争愈趋激烈的软件市场中,技术支持服务质量越来越被重视,软件厂商获得成功的关键因素之一是能否有效配置资源以提供高质量的软件技术支持服务。众所周知,服务质量评价是
实现全面建设小康社会的宏伟目标,最艰巨最繁重的任务在农村,最广泛最深厚的基础在农村,即重点在农村,难点在农村。而少数民族贫困山区的新农村建设,则是重点之中的重点,难点
现代意义的社会工作,是一种以助人为宗旨,运用专业知识、理论和方法,协调社会关系、预防和解决社会问题、促进社会公正的专门职业。主要分布在社会福利、社会救助、社会慈善
新加坡是一个由多元文化、多民族构成的年轻的移民国家,1959年新加坡获得自治,1965年8月9日新加坡脱离马来西亚联邦独立。为了生存和发展,新加坡建立了完备的法律制度,至2001
在经济全球化背景下,市场资源在全球范围内配置、国际资本市场的发展以及跨国公司的大量涌现,对于真实可靠、公允可比的财务会计信息的依赖程度大大提高。这种全球化的社会经
词类是汉语语法研究的一个老大难问题,理论上的不足导致汉语词典编纂中词类标注未能全面系统开展。具体到副词的词类标注上,某本词典内部或者几本词典之间,自相矛盾的标注情
英语存现句是一个具有特殊属性的结构,对英语存现句结构的研究于生成语法理论的发展而言有着重要意义,可以说对它的研究伴随着整个生成语法的研究。文献中关于英语存现句之句