越南语新闻事件元素抽取方法研究

被引量 : 9次 | 上传用户:ashwingangel
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着全球化的不断推进,中国与东盟各国的交流越来越频繁。越南作为与中国接壤的国家,与中国在政治、经济、文化等方面的交流更是与日俱增。为了更好的了解越南对中国在政治、经济等重要领域的事件看法,收集越南国内的新闻语料并对其进行系统管理、分析和提取出里面的重要事件元素就具有非常重要的研究意义。本文针对越南语新闻事件元素抽取中的关键问题,围绕越南语的分词、词性标注、越南语新闻事件语料库构建、越南语新闻命名实体识别方法以及基于模板和最大熵模型相结合的越南语新闻事件元素抽取方法开展了相关研究,主要完成以下特色研究工作:(1)开发了一个通用的越南语分词和词性标注系统平台。针对现有的越南语分词和词性标注工具包提供的核心API和模型,集成开发了一个越南语通用的分词和词性标注平台,为后续的越南语新闻事件元素抽取奠定基础。(2)构建了越南语新闻事件语料库。对越南语新闻事件进行了定义,选取了获取越南语的新闻语料来源网站,并对获取的越南语新闻语料进行类型、类别、分词、词性标注、新闻实体标注、触发词和事件元素标注等一系列的标注工作,并将分析后的语料进行存储,构建了越南语新闻事件语料库。(3)提出了一种基于条件随机场的越南语新闻命名实体识别方法。针对越南语词和词性的特点,定义了越南语实体识别的特征模板,利用收集的越南语新闻事件语料对越南语人名、地名、组织机构名、百分比、货币、钱数和时间日期等进行标注,并采用条件随机场方法训练得到越南语新闻命名实体模型,最后利用该模型实现面向越南语的新闻命名实体识别。(4)提出了一种基于模板和最大熵模型相结合的越南语新闻事件元素抽取方法。该方法首先分析了越南语新闻事件的特点,然后对越南语新闻事件的类型和类别进行识别,定义事件的抽取模板,并结合最大熵模型对越南语新闻事件元素进行抽取。(5)利用上述研究成果,设计实现了越南语新闻事件元素抽取的原型系统。
其他文献
目的建立芪参益气滴丸(QYDP)及其主要挥发性成分降香油的GC指纹图谱,并采用GC-MS对主要共有峰进行指认。方法采用HP-INNOWax(30 m×0.25 mm,0.25μm)毛细管柱进行分离。程序
变异函数作为地质统计学的主要工具,在地质统计学中占有举足轻重的地位。变异函数包括两种形式:实验变异函数和理论变异函数。对于变异函数的研究主要有变异函数的计算和变异
肺动脉高压(pulmonaryhypertension,PH)是一种临床常见病症,病因复杂,可由多种心、肺或肺血管疾病引起,其发生时肺动脉压增加,从而导致血管重构、右心负荷增大以及心脏衰竭。目前的
近年来,海岸侵蚀呈现不断加剧的趋势,给沿海地区经济社会的发展造成了极大危害。关于三亚湾海岸侵蚀过程及其动力学研究多停留在定性或半定量阶段。从海岸动力地貌学角度出发
湖南南方搏云新材料有限责任公司(以下简称“南方搏云”)成立于2006年7月3日,主营业务为:研发、生产、销售新型碳-碳复合材料制品及其相关设备,并致力于将新型碳-碳复合材料应用于
"个案全过程教学法"是按法的运行过程来向学生培养律师职业技能的一种教学方法。该教学法的价值主要体现在:有助于弥补学科划分所造成的学生知识的片断性和不完整性,提升学生
我国是工业大国,对石油资源有着极大的需求,随着经济发展速度的增快,将加大对石油开采力度,开采过程所造成的环境污染也将进一步加大,若不进行妥善处理,将对环境造成不可逆转
数学教学的情节——“直线与平面平行”的教学镜头片段陕西师范大学数学系罗增儒与语文教学相比,数学教学往往缺少情节,尤其是立体几何开头一段时间的教学更是平淡,学生基本上都
<正>新书架《党的十七届六中全会<决定>学习辅导百问》作者:本书编写组出版:党建读物出版社《六大会战(1937—1945)》作者:陶纯徐志耕等出版:贵州人民出版社《社会主义道德建
郑国和韩国是东周时期前后延续并有一段并存时期的诸侯国。新郑郑韩故城曾先后做过两国的都城。郑、韩两国文化既有共性又有差异,这从墓葬制度方面最能体现出来。本文即对郑、