基于配价理论的中文信息处理系统的设计与实现

来源 :成都理工大学 | 被引量 : 0次 | 上传用户:benbenwenwen
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网时代对中文信息处理提出了新要求,在目前语料充分,甚至数据海量的情况下,虽基于经验的统计方法得到了广泛的应用,但它在深层分析方面并没显出特别的优势。从无限的领域里寻找有限,以有限控制无限,是基于规则的方法。词和词义也是无限的,但每个人所掌握的词和词义却是有限的;语言环境是无限的,但人类交流时利用和感知到的语言环境要素是具体的。研究中文信息处理,首先要求研究者自身对中文有深入的了解。语言是人对事物认知的表达,相比其他语言,中文注重语义。本文从认知语言学、计算语言学和程序的角度,在语义的高度,主要用基于规则的方法:(1)用兼顾句法和语义的配价理论对中文句子进行分类。语言研究的具体成果要能为计算机用,必须兼顾两点要求:一要能够形式化,二对处理对象有普遍的可操作性。配价理论作为认知语法理论的一个重要部分,能同时兼顾句法和语义,接近语言实质,能够形式化,可操作性强。通过对配价性质的确立配价的原则和方法的探讨,确定常用动词的价数,并据此对中文句子进行分类。(2)将美国乔姆斯基形式主义的上下文无关语法和中国朱德熙先生基于词组的词组本位语法对照,进行语法对比,为语种间共性研究提供了资料,更趋近语言的本质。这为后面对中文的语法进行符号抽象,产生式规则库的建立提供可靠的理论支持,为句法分析的完成提供了保障。(3)建立配价字典。根据配价理论建立配价字典。配价字典用于对句子进行语义分析。(4)着重中文三类句子:正常语序句子,宾语前置句子和带介词的如“把”字句“被”字句。从对语言本身的研究出发,从一个新的角度开始,本文不局限于词法分析或句法分析,较好地兼顾两者并进行语义分析,对传统的从词法到句法再到语义的分析有突破。有较好的包容性和可拓展性。
其他文献
天津地处华北平原东北部,海河流域下游。综合建筑施工的特点,除了采取各种节水措施降低用水量外,收集利用水质好、水量大的工程降水雨水,是一个十分有效可行的节水途径。将建
《聊斋俚曲集》是清代著名文学家蒲松龄用山东方言写成的一部通俗说唱作品集。历来对聊斋俚曲的研究多注重文化因素的考证,而缺少对语言本体的认识。在谈到聊斋俚曲的音系特点
本论文将菲利普·罗斯(1933-)和米兰·昆德拉(1929-)的文学作品置于流散视野中,结合身份认同相关理论、借助平行研究的比较手法,在身份认同主题探讨下对其二者的主要文学作品进行平
本文對正史歌謠諺語異文考釋的意義進行了簡單闡述,并試從校勘學、文字學、詞彙學三個方面對兩漢正史歌謠諺語與其他傳世文獻之間的異文加以綜合分析考辨研究。考辨過程中盡力
目的探讨腰椎间盘突出症采取椎间融合器融合术后早期(3个月内)出现椎间融合器松动后移的原因及预防方法。方法回顾性分析2007年1月—2014年1月期间开展的268例腰椎间盘突出症
传统制革生产造成了大量动物毛类的浪费,且对环境也造成了很大污染。动物毛中含有丰富的角蛋白资源,但国内对动物毛发角蛋白再利用的研究并不多。本文从制革废弃猪毛中提取了角
笔者以补肝肾、强筋骨、活血通络止痛、祛风散寒除湿为治疗原则,研制出复方风湿康治疗骨关节炎68例,1个月为1个疗程,用药3个疗程,治愈52例,显效11例,有效4例,无效1例,有效率为98.5%。
目前语法学界对言及类词语的研究还不很充分。本文立足语言事实,在对几千万字的语料作穷尽性观察分析的基础上,从句法、语义、语用三个平面的角度对言及类词语“说到”作了系统
介绍了京津城际轻轨工程桥梁的排水措施和防水层设计,并重点阐述了桥梁防水层所用聚脲弹性防水涂料和聚氨酯防水涂料的施工工艺。
研究了冶炼烟气制酸过程产生的洗涤污酸浓缩除氟的效果和回用到湿法炼锌系统的可行性,通过模拟污酸和工业污酸浓缩试验,分析了污酸脱氟效果。浓缩过程中,当污酸中硫酸浓度低于40