论文部分内容阅读
随着全球化的不断推进,中国与东盟各国的交流越来越频繁。越南作为与中国接壤的国家,与中国在政治、经济、文化等方面的交流更是与日俱增。为了更好的了解越南对中国在政治、经济等重要领域的事件看法,收集越南国内的新闻语料并对其进行系统管理、分析和提取出里面的重要事件元素就具有非常重要的研究意义。本文针对越南语新闻事件元素抽取中的关键问题,围绕越南语的分词、词性标注、越南语新闻事件语料库构建、越南语新闻命名实体识别方法以及基于模板和最大熵模型相结合的越南语新闻事件元素抽取方法开展了相关研究,主要完成以下特色研究工作:(1)开发了一个通用的越南语分词和词性标注系统平台。针对现有的越南语分词和词性标注工具包提供的核心API和模型,集成开发了一个越南语通用的分词和词性标注平台,为后续的越南语新闻事件元素抽取奠定基础。(2)构建了越南语新闻事件语料库。对越南语新闻事件进行了定义,选取了获取越南语的新闻语料来源网站,并对获取的越南语新闻语料进行类型、类别、分词、词性标注、新闻实体标注、触发词和事件元素标注等一系列的标注工作,并将分析后的语料进行存储,构建了越南语新闻事件语料库。(3)提出了一种基于条件随机场的越南语新闻命名实体识别方法。针对越南语词和词性的特点,定义了越南语实体识别的特征模板,利用收集的越南语新闻事件语料对越南语人名、地名、组织机构名、百分比、货币、钱数和时间日期等进行标注,并采用条件随机场方法训练得到越南语新闻命名实体模型,最后利用该模型实现面向越南语的新闻命名实体识别。(4)提出了一种基于模板和最大熵模型相结合的越南语新闻事件元素抽取方法。该方法首先分析了越南语新闻事件的特点,然后对越南语新闻事件的类型和类别进行识别,定义事件的抽取模板,并结合最大熵模型对越南语新闻事件元素进行抽取。(5)利用上述研究成果,设计实现了越南语新闻事件元素抽取的原型系统。