基于条件随机场的柬埔寨语词法分析方法研究

被引量 : 11次 | 上传用户:wodexuehao
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
柬埔寨语词法分析是柬埔寨语信息处理的一项基础性工作,词法分析结果的好坏将直接影响柬埔寨语信息处理上层应用的效果。由于语言之间存在的差异性,传统的汉英词法分析技术无法直接移植到柬埔寨语上。为了丰富柬埔寨语词法分析的理论研究与应用,为柬埔寨语自然语言处理提供基础支撑,本文围绕柬埔寨语分词模型构建、柬埔寨语词性标注模型构建以及柬埔寨语命名实体识别模型构建等关键问题展开研究,并取得了以下成果:(1)提出了一种基于层叠条件随机场模型的柬埔寨语分词及词性标注方法。该方法首先以字符簇为粒度,融合上下文信息与柬埔寨语构词特点定义特征模板,构建分词模型对柬埔寨语进行分词;然后以词语为粒度,融合上下文信息以及柬埔寨语丰富的词缀等信息定义特征模板,构建词性标注模型对柬埔寨语进行词性标注。实验结果表明该模型能够有效的完成对柬埔寨语的分词和词性标注工作。(2)提出了一种融合传统特征信息和柬埔寨语实体特性的命名实体识别方法。该方法针对不同实体的组成结构,对时间、数字表达式等结构固定的实体采用人工定义规则库的方法进行识别;对人名、地名、组织机构名等结构复杂的实体,在词形、词性等特征基础上,融合柬埔寨语实体特征,利用条件随机场机器学习算法对人工标注语料进行训练获得实体识别模型。实验结果表明该方法可以提高柬埔寨语命名实体识别的准确度。(3)设计并实现了柬埔寨语词法分析原型系统,为研究柬埔寨语自然语言处理领域的研究发展提供了有力的支撑。
其他文献
我国是工业大国,对石油资源有着极大的需求,随着经济发展速度的增快,将加大对石油开采力度,开采过程所造成的环境污染也将进一步加大,若不进行妥善处理,将对环境造成不可逆转
数学教学的情节——“直线与平面平行”的教学镜头片段陕西师范大学数学系罗增儒与语文教学相比,数学教学往往缺少情节,尤其是立体几何开头一段时间的教学更是平淡,学生基本上都
<正>新书架《党的十七届六中全会<决定>学习辅导百问》作者:本书编写组出版:党建读物出版社《六大会战(1937—1945)》作者:陶纯徐志耕等出版:贵州人民出版社《社会主义道德建
郑国和韩国是东周时期前后延续并有一段并存时期的诸侯国。新郑郑韩故城曾先后做过两国的都城。郑、韩两国文化既有共性又有差异,这从墓葬制度方面最能体现出来。本文即对郑、
随着全球化的不断推进,中国与东盟各国的交流越来越频繁。越南作为与中国接壤的国家,与中国在政治、经济、文化等方面的交流更是与日俱增。为了更好的了解越南对中国在政治、
机器翻译在不同语种之间的交流中起着非常重要的作用,一直是自然语言处理研究的热点和难点。这些年来,世界各地对于少数民族语言文字也越来越重视,纳西语即为其中之,作为古老
随着新一轮基础教育改革的实施与推进,针对初中历史的课程设计、课程内容、课程目标等都作出了很大的调整,导致中考从理念到形式的变革。有效复课顾名思义就是在中考复习中,
改革开放来,我国已出现由粗放型经济发展所导致的严重环境退化问题。而随着环境问题的恶化,人们越来越意识到其对我们生存健康的威胁。不可置否的是我国一直也在尝试通过各种
高校是我国教育的重要组成部分,也可看作是一个具有鲜明特点的社区,随着社会坏境的变化,高校的学生也会紧跟时代变化出现各种问题和困惑。在新的形势下如何做好高校学生的教育、
本文在理论研究的范畴内,从艺术品拍卖关系为大的前提出发,结合目前我国艺术品拍卖过程中的一些问题,在广义上对艺术品的概念进行整理和概括,指明艺术品应该具备的特征。从艺