基于依存语法理论的柬埔寨语句法分析研究

来源 :战略支援部队信息工程大学 | 被引量 : 0次 | 上传用户:sesame_1975
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
柬埔寨语句法分析对于柬埔寨语语言本体研究、NLP研究和教学实践等均具有十分重要的理论意义和实用价值。从语言学角度来看,柬埔寨语句法分析是上承词法分析、下启语义分析的关键环节,是表层语法结构与深层语义结构连接的枢纽。从NLP角度而言,柬埔寨语句法分析的成效,直接影响到问答系统、机器翻译、信息抽取等高级任务的运行效率,是柬埔寨语NLP研究的重点和难点。从教学实践角度来说,柬埔寨语句法分析是真正弄通学懂柬埔寨语的必备技能,也是判断教学效果的重要依据。然而,目前学界对于柬埔寨语句法的研究仍然比较薄弱,在语言学方面缺乏系统的描写和阐释,在NLP方面还主要停留在词法分析阶段,教学实践中对句法分析也是浅尝辄止。本文以柬埔寨语句法为研究对象,采用依存语法理论从语言学和NLP两个层面对柬埔寨语的句法问题展开论述,以期促进柬埔寨语句法研究的开展,重点推动柬埔寨语NLP研究实现由词法分析向句法分析的突破。根据任务特点,按照“先上游再下游、先理论后实践”的研究顺序,主要着眼于解决以下四个问题:(1)解决柬埔寨语中缺乏大规模高质量标注语料库的问题,通过构建符合规范的大规模标注语料库,为后续柬埔寨语词法和句法研究创造基础条件。(2)解决柬埔寨语词法分析难题,主要包括分词和词性标注两大主干任务,以奠定句法分析的基础和前提;(3)解决缺乏理论分析的问题,使用依存语法理论对柬埔寨语句子进行语言学层面的阐释和说明,以形成柬埔寨语句法研究的理论依据;(4)解决实际应用问题,以依存语法理论为指导,提出柬埔寨语自动句法分析的策略,并开发一个小型句法分析器进行验证。主要解决思路和研究内容如下:(1)以柬埔寨语文本中存在的零宽度空格(ZWSP)为突破口,利用爬虫获取大规模包含ZWSP的语料数据,并使用正则表达式对数据进行标准化处理。通过将ZWSP转换为半角空格,跳过人工分词环节,最终搭建起一个大规模的分词语料库,作为本研究的数据支撑。本环节旨在解决柬埔寨语中缺乏大规模高质量标注语料库的问题,为后续柬埔寨语词法和句法研究创造基础条件。(2)通过统计分析,获取语料库中常用词的分布及单音节词的使用频率等数据。并基于这些语料库统计信息和柬埔寨语官方词典,构建一个高质量的词表。融合利用“双向最大匹配算法”“正则表达式”“高棉字符簇”三种方法,采用“规则+统计”的处理思路,开发出高质量的柬埔寨语分词模型。在分词模型的基础上,利用柬埔寨语官方词典和基于N-gram模式的三元搭配信息以及使用频率,开发出分词和词性标注联合模型。本环节旨在解决柬埔寨语词法分析难题,尤其是分词和词性标注准确性不够的问题。通过综合分析问题原因、提出解决问题思路以及开发联合模型的方式,最终使柬埔寨语分词和词性标注的准确性达到较高水平,能够支撑下游任务的开展。(3)高质量分词和词性标注联合模型的开发,为柬埔寨语句法研究打下坚实基础。本研究使用依存语法对柬埔寨语句法结构进行了系统全面地描述和说明,从“多词结构”“基本句法结构”“特殊句法结构”三个方面详细进行了举例阐释。同时依据柬埔寨语的语言特点,按照Universal Dependencies的依存关系规范,对柬埔寨语句子成分之间的各类依存关系进行了约定,认为柬埔寨语中包含27种依存句法关系。本环节旨在解决柬埔寨语句法研究缺乏理论分析的问题。本文使用依存语法中关于句法分析的理论对柬埔寨语句法进行了全面的描写和阐释,首次从理论层面对依存语法在柬埔寨语句法研究中的应用进行了探讨。(4)在上述研究的基础上,基于“分治策略”,提出可以利用传统语言学中“词性”“位置”“搭配”“句法功能”等要素,按照“逐层合并”“支配权转移”等思路,实现句法分析由词汇层向句法层的移进。最终以规则驱动的方式设计出柬埔寨语依存句法分析的主要流程,为柬埔寨语依存句法分析器的开发提出了策略思路。本环节旨在解决柬埔寨语句法分析的实际应用问题。本文对柬埔寨语依存句法分析器的设计提出了构想,从基于规则角度指出柬埔寨语依存句法分析的实践路线。经过范例测试,验证了该思路的可行性,并开发出一个简单的依存句法分析器进行语料的测试和训练。可以看到,一是ZWSP在构建柬埔寨语大规模高质量标注语料库中能够切实地发挥效果,极大地节省了人工标注的时间和精力,尤其是能够确保标注标准的统一以及取得较高的准确度;二是依存语法理论在应对柬埔寨语句法分析问题时,无论从语言学理论层面,还是NLP实践层面均能够较好地得到运用,是一种值得进一步关注和研究的理论。三是柬埔寨语句法分析研究,在大规模标注语料库和依存语法理论的支撑下已经真正地实现了理论和实践的结合,柬埔寨语NLP研究实质性地由词法分析转向句法分析。
其他文献
诚信是企业的灵魂,缺乏诚信的企业就失去了核心竞争力和可持续发展能力。商业活动不是纯粹的利益行为,必然包含着一定程度的商业伦理与道德,否则,商业活动将难以为继。然而,我国企业的失信问题日趋严重,带来了严峻的诚信危机,不仅加大了社会成本、损害了消费者的利益、阻碍了企业的成长,也危及了我国社会的稳定和安全。企业诚信建设涉及到经济、政治、社会、文化多个方面。当前,关于我国企业诚信培育的研究已经引起了广泛的
光伏发电技术是一种清洁的绿色能源技术。随着国际社会对全球气候变暖及化石能源枯竭问题的日益关注,光伏发电技术越来越受到学术界和工业界的重视。硅基太阳电池是目前光伏发电市场中最成熟且份额最大的电池产品,而“降本增效”是行业发展的主旋律,也是光伏发电平价上网的推动力。提高太阳电池的光学性能是提高其光电转换效率的重要途径之一。近些年,随着金刚线切技术的大规模应用,硅片成本得以大幅下降。但金刚线切多晶硅片,
背景:严重烧伤是一种高死亡率的疾病,严重烧伤后早期出现的休克是引起患者死亡的主要原因,亦是治疗的重点和难点,但目前引起严重烧伤早期休克的病理机制仍未被完全阐明。有报道显示中性粒细胞分泌的肝素结合蛋白(heparin binding protein,HBP)和髓过氧化物酶(myeloperoxidase,MPO)可能分别与血管渗漏和糖萼损伤有关,但在严重烧伤中的作用机制不明。目的:研究中性粒细胞脱颗
糖尿病视网膜病变(Diabetic retinopathy,DR)是影响糖尿病人群视力最常见的微血管并发症。持续性高血糖状态下的慢性低度亚临床炎症对视网膜微血管有影响,最终导致DR。一项日本研究表明,15.0%的轻度非增生性DR发展为增生性DR(Proliferative diabetic retinopathy,PDR)。糖尿病病程的增长,严重影响视力的PDR的发病率亦增高。研究DR的具体发病机
生物材料在纳米尺度的结构和形貌对材料本身的机械性能、生物相容性、降解性能等具有重要影响。可降解的生物材料一直是国内外研究的热点,其中丝素蛋白由于具有可控的降解速率、降解产物无毒性、较好的机械性能被制备成多种生物材料形式,应用在生物医学领域中。纳米孔结构因其具有较高的比表面积、表面能高、提高材料的通透性和细胞粘附性,在药物递送、组织工程等方面具有广泛的研究,尤其是具有显著的尺寸效应和表面效应的直径小
随着“互联网+教育”的推进,学习环境的变化,引导着学校教育的理念、教与学的方式、教育生态都在改变。学校教育在面对面教学的基础上,融入了“在线教学”的元素,已逐步形成了混合教学的形态。受COVID-19疫情冲击,2020春季学期在线教育在中小学得以长时期大规模的实践,又一次加快了“在线教学”与“面对面教学”的融合。那么,教师应具备哪些胜任特征,才能胜任“在线教学”呢?这给未来教师培养以及一线教师的专
冷轧板是一种广泛应用于汽车、家电等行业的重要材料,其表面微观形貌直接影响冷轧板的冲压成形、涂漆和抗磨损等性能。在冷轧过程中,轧辊表面微观形貌呈一定衰减比转印到冷轧板表面,因此,在轧制成形前对冷轧辊表面进行毛化预处理尤为重要。目前,轧辊表面毛化处理主要是采用电火花毛化,然而电火花设备昂贵,依赖进口,且电火花毛化还存在能耗高、油污染严重、形貌保持性差等问题。激光毛化技术具有形貌质量高、环境友好、运行费
倾向性分析又称观点挖掘,是对附带倾向性特征的文本进行语义处理、意见剖析和情感表达研究的过程,目的是对文本情感的倾向性进行判断。在经济全球化和高科技加速发展的新形势下,世界进入了信息化时代,尤其是随着互联网技术的不断革新与突破,新闻信息以海量的形式呈现在用户面前。新闻报道成为普罗大众探知世界的主要渠道,以美国为代表的西方大国一直在世界上占据舆论垄断地位,受到国际舆论环境、媒介传播机构政治立场、采写者
目的:越来越多的研究发现成骨细胞对造血干细胞的发育调控发挥重要的作用,一旦成骨细胞受损,导致小鼠骨骼以及骨髓增生异常,主要包括HSCs克隆性增殖、血细胞计数下降、B淋巴细胞生成与巨核细胞发育异常,最终引起一些的疾病发生,如骨髓急性白血病。树突状细胞是目前抗原呈递能力最强的细胞,在适应性免疫和固有免疫中均发挥着重要作用,但到目前为止成骨细胞谱系对树突状细胞的分化发育还暂不明确。本课题旨在探究成骨细胞
目的:探讨CD137-CD137L信号通路通过调节Rab7介导的自噬促进血管平滑肌细胞(VSMC)和Apo E-/-小鼠主动脉粥样硬化斑块钙化形成机制。方法:利用慢病毒载体过表达或者敲减Rab7,同时以载脂蛋白E缺陷(Apo E-/-)小鼠和C57/6J小鼠的原代VSMC为模型,应用炎症因子及重组CD137L激活CD137-CD137L信号通路,研究CD137-CD137L信号通路通过调节Rab7